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深度 强化 学 习 结 合 深 度 学 习 与 强化 学 习 算 法 各 自 的 优势 解决 复杂 的 决策 任务 。 得 益 于 DeepMind Al- 
phaGo 和 OpenAI Five 成 功 的 案例 ， 深 度 强化 学 习 受 到 大 量 的 关注 ， 相 关 技 术 广泛 应 用 于 不 同 的 领域 。 
本 书 分 为 三 大 部 分 , 覆盖 深度 强化 学 习 的 全 部 内 容 。 第 一 部 分 介绍 深度 学 习 和 强化 学 习 的 入 门 知 识 、 一 




































































些 非常 基础 的 深度 强化 学 习 算 法 及 其 实现 细节 ， 包 括 第 1 一 6 章 。 第 二 部 分 是 一 些 精 选 的 深 
题目 ， 这 些 内 容 对 准备 开展 深度 强化 学 习 研 究 的 读者 非常 有 用 ， 包 括 第 7 一 12 章 。 第 三 部 
应 用 案例 ， 包 括 AlphaZero、 让 机 器 人 学 习 跑 步 等 ， 包 括 第 13—17 章 。 























































































































度 强 化 学 习 研 究 
分 提供 了 丰富 的 



























































本 书 是 为 计算 机 科学 专业 背景 、 希 望 从 零 开 始 学 习 深 度 强化 学 习 并 开展 研究 课题 和 人 
































践 项 目的 学 生 准 



























































到 具体 产品 中 的 











备 的 。 本 书 也 适合 没有 很 强 的 机 器 学 习 背 景 、 但 是 希望 快速 学 习 深 度 强化 学 习 并 将 其 应 用 
软件 工程 师 阅 读 。 
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| 长， 英国 皇 





广泛 的 内 容 。 这 样 的 书籍 是 初 
社区 是 深度 学 习 得 到 快速 发 展 不 可 或 
大 量 的 开源 代码 。 我 也 相信 这 本 书 将 会 对 那些 希望 深入 这 个 领域 的 研究 人 员 非 常 有 月 


港 浸 会 大 学 副 校长、 





家 工程 院 院士 ， 欧 洲 科学 院 院 士 ) 
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专家 赞誉 
































教授 ,帝国 理工 学 院 教 授 ， 数 据 科 学 丰 

















我 对 这 本 书 覆 益 内 容 的 范围 之 
到 包含 代码 细节 的 技术 实现 描述 ， 作 者 们 花 了 大 量 的 精力 致力 于 提供 











印象 深刻 。 从 深度 强化 学 习 的 基础 




















完 所 所 


理论 知识 ， 








综合 
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学 者 和 科研 人 员 非 常 好 的 学 习 材料 。 d 











j 抱 开源 






































希望 通过 开源 例子 快速 上 手 的 工程 师 提 供 良 好 的 基础 。 




















强化 学 习 的 知名 大 学 古 


明 清 晰 的 风格 提供 了 详尽 的 工 
实现 细节 和 前 瞻 的 太 








陈 宝 权 (北京 大 学 教授 ， 前 沿 计算 研究 中 心 执行 主任 ，IEEE Fellow) 








以 提供 详细 的 描述 、 算 法 实现 、 





本 书 提供 的 深度 强化 学 习 内 容 非 常 可 靠 ， 缩 小 了 基础 理论 和 实践 之 间 的 差距 ， 
大 量 技巧 和 速 查 表 为 特色 。 本 书 作 者 均 是 研究 
究 者 和 将 技术 用 在 各 类 应 用 中 的 开源 社区 实践 者 。 这 
























































金 驰 (普林斯顿 大 学 助理 教授 ) 














本 书 为 不 同 背 景 和 阅读 目的 的 读者 提供 了 非常 有 用 的 资源 。 





这 是 一 本 在 深度 强化 学 习 这 个 重要 领域 




































































习 算 法 运 | 





























岂 的 一 个 原因 。 我 很 欣慰 这 本 书 提供 了 
日， 也 对 那些 

















版 得 非常 及 时 的 书 。 本 书 以 一 种 简 
,包括 深度 强化 学 习 的 基础 和 重要 算法 、 具 体 
究 方 向 。 对 任何 愿意 学 习 深度 强化 学 习 、 将 深度 强化 学 
到 某 些 应 用 上 或 开始 进行 深度 强化 学 习 基 础 
书 都 是 理想 的 学 习 材料 。 





究 的 人 来 说 ， 这 本 
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李 克 之 “伦敦 大 学 学 院 助 理 教授 》 
这 本 书 是 为 强化 学 习 、 特 别 是 深度 强化 学 习 的 忠实 粉丝 提供 的 。 从 2013 年 开 
台 ， 深 度 强化 学 习 已 经 渐渐 地 以 多 种 方式 改变 了 我 们 的 生活 和 世界 ， 比 如 会 下 
棋 的 AlphaGo 技术 展示 了 超过 专业 选手 的 理解 能 力 的 “围棋 之 美 >。 类 似 的 情 
况 也 会 发 生 在 技术 、 医 疗 和 人 金融 领域 。 深度 强化 学 习 探索 了 一 个 人 类 最 基本 的 
y 问题 人 类 是 如 何 通过 与 环境 交互 进行 学 习 的 ? 这 个 机 制 可 能 成 为 逃 出 “大 数 
据 陷 阱 ”的 关键 因素 ， 作 为 一 条 强人 工 智能 的 必 经 之 路 ， 通 向 人 类 智慧 尚未 企及 的 地 方 。 本 书 由 
一 群 对 机 器 学 习 充 满 热情 的 年 轻 研究 人 员 编 著 ， 它 将 向 你 展示 深度 强化 学 习 的 世界 ， 通 过 实例 和 
经 验 介绍 加 深 你 对 深度 强化 学 习 的 理解 。 向 所 有 想 把 未 来 智慧 之 匙 揣 进口 袋 的 学 习 者 推荐 此 书 。 
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ll 
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为 什么 写作 本 书 


人 工 智能 已 经 成 为 当今 信息 技术 发 展 的 主要 方向 ， 国 务 院 印 发 的 《新 一 代 人 工 智 能 发 展 规 
划 》 中 指出 : 2020 年 我 国人 工 智 能 核心 产业 规模 超过 1500 亿 元 ， 带 动 相关 产业 规模 超过 1 万 亿 
Jù; 2030 年 人 工 智 能 核心 产业 规模 超过 1 万 亿 元 ， 带 动 相关 产业 规模 超过 10 万 亿 元 。 深 度 强化 
学 习 将 结合 深度 学 习 与 强化 学 习 算法 各 自 的 优势 来 解决 复杂 的 决策 任务 。 

近年 来 ， 归 功 于 DeepMind AlphaGo 和 OpenAI Five 这 类 成 功 的 案例 ， 深 度 强化 学 习 受到 大 
量 的 关注 ， 相 关 技 术 广泛 用 于 金融 、 医 疗 、 军 事 、 能 源 等 领域 。 为 此 ， 学 术 界 和 产业 界 急需 大 量 
人 才 ， 而 深度 强化 学 习作 为 人 工 智能 中 的 智能 决策 部 分 ， 是 理论 与 工程 相 结 合 的 重要 研究 方向 。 
本 书 将 以 通俗 易 懂 的 方式 讲解 相关 技术 ， 并 辅 以 实践 教学 。 


本 书 主要 内 容 


本 书 分 为 三 大 部 分 ， 以 尽 可 能 覆盖 深度 强化 学 习 所 需要 的 全 部 内 容 。 

第 一 部 分 介绍 深度 学 习 和 强化 学 习 的 入 门 知 识 、 一 些 非常 基础 的 深度 强化 学 习 算法 及 其 实现 
细节 ， 请 见 第 1~6 章 。 

第 二 部 分 是 一 些 精 选 的 深度 强化 学 习 研 究 题目 ， 请 见 第 7 一 12 章 ， 这 些 内 容 对 准备 开展 深度 
强化 学 习 研 究 的 读者 非常 有 用 。 

为 了 帮助 读者 更 深入 地 学 习 深 度 强化 学 习 ， 并 把 相关 技术 用 于 实践 ， 本 书 第 三 部 分 提供 了 让 
富 的 例子 ， 包 括 AlphaZero、 让 机 器 人 学 习 跑 步 等 ， 请 见 第 13~17 章 。 


















































































































































































































































如 何 阅 读本 书 


本 书 是 为 计算 机 科学 专业 背景 、 希望 从 零 学 习 深 度 强化 学 习 并 开展 研究 课题 和 实践 项 目的 学 
生 准 备 的 。 本 书 也 适用 于 没有 很 强 机 器 学 习 背景 、 但 是 希望 快速 学 习 深度 强化 学 习 并 把 它 应 用 到 
具体 产品 中 的 软件 工程 师 。 
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鉴于 不 同 的 读者 情况 会 有 所 差异 〈 比 如 ， 有 的 读者 可 能 是 第 一 次 接触 深度 学 习 ， 而 有 的 读者 
可 能 已 经 对 深度 学 习 有 一 定 的 了 解 ， 有 的 读者 已 经 有 一 些 强化 学 习 基 础 ， 有 的 读者 只 是 想 了 解 强 
化 学 习 的 概念 ， 而 有 的 读者 是 准备 长 期 从 事 深度 强化 学 习 研 究 的 )， 这 里 根据 不 同 的 读者 情况 给 
予 不 同 的 阅读 建议 。 
l. 要 了 解 深度 强化 学 习 。 
第 1~6 章 履 盖 了 深度 强化 学 习 的 基础 知识 ， 其 中 第 2 章 是 最 关键 、 最 基础 的 内 容 。 如 果 您 
已 经 有 深度 学 习 基 础 ， 可 以 直接 跳 过 第 1 章 。 第 3 章 、 附 录 A 和 附录 B 总 结 了 不 同 的 算法 。 
2. 要 从 事 深度 强化 学 习 研 究 。 
除了 深度 学 习 的 基础 内 容 ， 第 7 章 介绍 了 当今 强化 学 习 技 术 发 展 遇 到 的 各 种 挑战 。 您 可 以 
通过 阅读 第 8 一 12 章 来 进一步 了 解 不 同 的 研究 方向 。 
3. 要 在 产品 中 使 用 深度 强化 学 习 。 
如 果 您 是 工程 师 ， 希 望 快速 地 在 产品 中 使 用 深度 强化 学 习 技 术 ， 第 13 一 17 章 是 您 关注 的 重 
点 。 您 可 以 根据 业务 场景 中 的 动作 空间 和 观测 种 类 来 选择 最 相似 的 应 用 例子 ， 然 后 运用 到 
您 的 业务 中 。 
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本 书 编著 方式 与 其 他 同类 书籍 不 同 ， 是 由 人 工 

































































关于 本 书 作者 





智能 开源 社区 发 起 的 ， 我 们 非常 感谢 Tensor- 






































































































































































































































Layer 中 文 社 区 的 支持 。 最 重要 的 是 感谢 家 人 对 我 们 工作 的 支持 和 强大 的 祖国 对 人 工 智 能 产业 的 
重视 。 下 表 列 出 了 所 有 章节 的 作者 。 
各 章节 作者 列表 

章节 标题 作者 

- 前 言 mE 

- 数学 符号 DE 

- 序言 mS. (VIAL 

一 基础 部 分 mE 

1 深度 学 习 入 门 KA, xou. BA BERR 

2 强化 学 习 入 门 TFR BEEP. eit. GEAR. M 

3 强化 学 习 算法 分 类 JKUSTA. RAE 

4 深度 Q 网 络 REH, RATE 

5 策略 梯度 仍 尚 航 、 黄 锐 桐 、 余 天 洋 、 丁 子 涵 

6 深度 Q 网 络 和 Actor-Critic 的 结合 张 鸿 馈 、 余 天 洋 、 黄 锐 柚 

一 研究 部 分 丁子 涵 

7 深度 强化 学 习 的 挑战 JT. EX 

8 模仿 学 习 丁子 涵 

9 集成 学 习 和 规划 KER SEAR. VIAL 

10 分 层 强 化 学 习 BEEP. Lint. RAE 

11 多 智能 体 强 化 学 习 TAB. MLN 

12 开行 计算 张 华 清 、 余 天 洋 

一 必用 部 分 me. J Fie 

13 Learning to Run TFK EX 
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关于 本 书 作者 














































































































各 章节 作者 列表 ( 续 表 ) 
章节 标题 作者 
14 鲁 棒 的 图 像 增强 HEE, MÁI RAE 
15 AlphaZero 张 鸿 铭 、 余 天 洋 
16 模拟 环境 中 机 器 人 学 习 TTR. Be 
17 Arena: 多 智能 体 强化 学 习 平 台 丁子 涵 
18 深度 强化 学 习 应 用 实践 技巧 Jiu. EXE 
- 总 结 部 分 董 豪 
一 算法 总 结 表 丁子 涵 
一 算法 速 查 表 丁子 涵 
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BI SE Use ENNA. F 2019 年 
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秋 获 得 英国 帝国 理 














3 "e bx fe 











研究 方向 主要 涉及 计算 机 视觉 
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智能 系统 所 需要 的 数据 。 致 力 E 
此 框架 获得 ACM MM 2017 4E] 
一 等 研究 生 和 一 等 本 科学 位 。 




















丁子 涵 ”英国 帝国 至 

















ETME. IR? 











[智能 技术 ， 是 深度 学 习 刀 























作者 简介 








型 ， 目 的 是 降低 学 习 
F 源 框架 TensorLayer 的 创始 人 ， 












































F 源 软件 奖 。 在 英国 




















4 林 斯 顿 大 学 博 

















学 院 和 英国 中 央 兰 开 夏 大 学 获 





学 金 ， 曾 在 加 拿 大 Borealis Al, 

















腾讯 Robotics X 实验 室 有 过 了 
研究 方向 主要 涉及 强化 学 习 、 机 器 人 控 M 
Physical Review 等 顶级 期 刊 与 














项 目的 贡献 者 。 
仍 尚 航 ” 加州 大 学 1 
































adaptation. self lear 





























B. Th SEA Gt So 

















年 获得 卡 内 基 ， 梅 隆 大 学 博 - 
NeurIPS、CVPR、ICCV、TNNLS、AAAI、IJCAI 等 人 工 智 da 
主要 从 事 Human-inspired sample-efficient learning 理论 与 


ning 等 。 






































得 AAAI 2021 Best Paper Award、 美 





到 科学 技术 大 学 ， 获 物理 和 计算 机 双 学 位 。 
在 ICRA、NeurIPS、AAAI、JCAI、 
会 议 发 表 多 篇 论文 ,是 TensorLayer-RLzoo. TensorLet 和 Arena 开源 














白 克利 分 校 BAIR 实验 室 (Berkeley AI Research Lab) 博士 后 研究 员 。 于 2018 
研究 方向 主要 涉及 深度 学 习 、 计 算 机 视觉 及 强化 学 习 。 在 











会 议 发 表 多 篇 论文 。 目 前 


25. 包括 low-shot learning. domain 
国 2018 Rising Stars in EECS、 





Adobe Collaboration Fund. Qualcomm Innovation Fellowship Finalist Award 等 奖励 。 


ROm 英国 牛津 大 学 计算 机 














习 在 健康 医疗 中 的 运用 。 
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和 卡 
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JHE « 梅 隆 大 学 。 





ER FERF 








主攻 人 工 智能 安全 和 深度 学 





















































在 欧美 各 大 高 校 和 研 $ 























里 工学 院 、 马 克 斯 普 朗 元 研 



































张 鸿 铭 ”中国 科学 院 自 动 化 
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要 研究 方向 为 深度 学 习 、 机 器 学 习 、 文 本 挖掘 、 

















研究 方向 涉及 统计 机 器 学 习 、 强 化 学 习 和 启发 式 搜索 。 
里 工学 院 数据 科学 院 院 长 郭 表 可 院士 。 主 
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态 机 器 学 习 。 曾 贡献 过 开源 项 目 mmdetection 和 PyTorch Cluster, Æ Kaggle 数据 科学 社区 曾 获 
Competitions Grandmaster 称号 ， 最 高 排名 全 球 前 25 位 。 
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自从 1946 年 第 一 台 真 正 意 


























随 着 算 力 的 提高 和 数据 的 增长 ， 


些 任 务 上 的 表现 甚至 已 经 超越 人 类 ， 比 如 围棋 、 象 棋 ， 以 及 一 些 疾病 诊断 和 电子 游戏 等 。 人 工 智 


支 术 还 能 被 广泛 用 于 其 他 应 ) 


ab 
He 
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义 上 的 计算 机 发 明 以 来 ， 人 们 





直 致 力 于 建造 更 加 智能 的 计算 机 。 

















人 工 智能 (Artificial Intelligence, AD 获得 了 空前 的 发 展 ， 在 一 









































中 ， 比 如 药物 发 现 、 天 气 预 测 、 








与 控制 、 自 动 轰 驶 、 人 脸 识别 、 








语音 识别 和 对 话 系统 。 








近 十 年 来 ， 很 多 国家 ， 比 妇 





与 此 同时 , 还 有 很 多 科技 巨头 ， 
节 跳 动 和 阿里 巴巴 等 ， 也 都 积极 地 参与 其 中 。 人 工 智能 在 我 们 的 日 常生 活 中 正 变 得 无 处 不 在 ， 如 


自动 驾驶 汽车 、 人 脸 ID 























在 我 们 深入 阅读 本 书 之 前 ， 














urn Bg. 英国 、 美国 、 AA, 德国 
































材料 设计 、 推 荐 系统 、 机 器 感知 














， 对 人 工 智能 进行 了 大 量 的 投入 。 












































比如 Google, Facebook, Microsoft, Apple, HIE. EI, Bm Z 


























和 聊天 机 器 人 。 毫 无 疑问 ， 人 工 智能 对 人 类 社会 的 发 展 至 关 重 要 。 
第 一 步 应 该 先 了 解 人 工 智能 领域 不 同 的 子 领域 , 如 机 器 学 习 (Ma- 


chine Learning, ML), KEZ] (Deep Learning，DL)、 强 化 学 习 (Reinforcement Learning, RL), 


以 及 本 














Diagram) 展示 了 它们 之 间 的 关系 ， 下 面 将 会 逐一 介绍 它们 。 


人 工 智 能 























虽然 科学 家 一 直 以 来 都 在 努力 让 计算 机 变 得 越 来 越 智 能 ， 


























忆 的 主题 一 一 深度 强化 学 习 (Deep Reinforcement Learning, DRL). Al 1 HBAR (Venn 








但 是 “智能 ”的 定义 直到 今天 依 























然 是 非常 模糊 的 。 在 这 个 问题 上 ，Alan Turing 最 早 在 他 1950 年 曼城 大 学 时 的 文章 Computing 


Machinery and Intelligence PAA T RARUA (Turing Test). 。 图 























灵 测 试 可 以 用 来 衡量 机 器 模拟 人 





类 行为 的 能 力 大 小 。 有 具体 来 说 ， 它 描述 了 一 个 “imitation game”， 一 个 质问 者 向 一 个 人 和 一 台 计 
算 机 提出 一 系列 问题 , 用 以 判断 哪个 是 人 ， 哪 个 是 机 器 。 当 且 仅 当 质 问 者 不 能 分 辨 出 人 和 机 器 时 ， 








图 灵 测 试 就 通过 了 。 


















































人 工 智 能 的 概念 最 早 是 由 John McCarthy 在 1956 年 夏天 的 达 特 茅 斯 (Dartmouth) 会 议 上 提 


























出 的 。 这 次 会 议 被 认为 是 人 工 智 能 正式 进入 计算 机 科学 领域 的 天 





F 端 。 最 早期 的 人 工 智能 算法 主要 

















用 于 解决 可 以 被 数学 符号 和 逻辑 规则 公式 化 的 问题 。 
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图 1 人 工 智能 、 





人 工 智能 


Artificial Intelligence 


ES 
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机 器 学 习 


Machine Learning 


深度 学 习 


Deep Learning 










深度 强化 学 习 


Deep Reinforcement Learning 












强化 学 习 


Reinforcement Learning 
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机 器 学 习 、 深 度 学 习 、 强 化 学 习 及 深度 强化 学 习 之 间 的 关系 


机 器 学 习 (Machine Learning, ML) 的 概念 和 名 字 是 由 Arthur Samuel (Bell Labs, IBM, Stanford ) 











rh 











在 1959 年 首次 














是 出 来 的 。 





就 称 为 机 器 学 习 
始 数 据 ， 






































提取 有 效 
比如 ， 在 早期 的 人 























个 人 工 智 能 系统 需 





女 





。 很 多 人 工 智能 问题 可 以 被 这 样 解决 :通过 设计 














寺 征 


， 然 后 
脸 识 别 算法 中 ， 我 们 需要 特殊 的 人 脸 特 征 提取 算法 。 最 简单 的 



































j 这 些 特 征 。 





机 器 学 习 算法 使 























只 别 


k 备 从 原始 数据 中 学 习 知 识 的 能 力 ， 这 个 能 力 
上 有 针对 性 的 模式 


算法 来 从 原 


















































































































































方法 就 是 使 



















































































用 主 成 分 分 析 (Principal Component Analysis, PCA) 降低 数据 的 维度 ， 然 后 把 低 维度 特征 输入 一 
个 分 类 器 获得 结果 。 长 期 以 来 ， 人 脸 识别 需要 纯 手工 设计 的 特征 工程 算法 。 针 对 不 同 问题 设计 特 
征 提取 算法 的 过 程 非常 耗 时 ， 而 且 在 很 多 任务 中 设计 有 针对 性 的 特征 提取 算法 的 难度 非常 大 。 比 
如 ， 语 言 翻译 的 特征 提取 需要 语法 的 知识 ， 这 需要 很 多 语言 学 专家 帮助 。 然 而 ， 一 个 通用 的 算法 
应 该 具备 从 对 不 同 任务 自行 学 习 出 特征 提取 算法 ， 以 大 大 降低 算法 开发 过 程 中 所 需 的 人 力 的 先 验 
知识 。 

学 术 界 有 很 多 研究 ， 使 得 机 器 学 习 能 自动 学 习 数据 的 表征 。 表 征 学 习 的 智能 化 不 仅 可 以 提升 
性 能 ， 还 能 降低 解决 人 工 智能 问题 的 成 本 。 

深度 学 习 


深度 学 习 是 机 器 学 习 ! 
Neural Network, ANN) (Goodfellow et al., 2016) 来 实现 。 我 们 之 所 以 称 它 为 神经 网 络 ， 是 














是 由 生物 








Logical Calculus of the Ideas Immanent in Nervous Activity (McCulloch et al., 1943) IAJ A T} 























的 





个 子 领域 , 与 其 他 算法 不 同 , 它 主要 基于 人 工 神经 网 络 (Artificial 





K| 











经 网 络 启发 设计 的 。Warren Sturgis McCulloch 和 Walter Pitts Æ 1943 年 共同 发 表 的 4 




















经 


XIII 


前 导 知 识 








网 络 的 开端 。 
特定 的 特征 提 


深度 神经 网 络 (Deep Neural Network, DNN) 是 人 工 神经 网 络 的 “深度 ”版 本 ， 有 很 多 的 神 
络 具有 更 强 的 数据 表达 能 图 
的 主要 区 别 。 深度 学 习 方 法 让 开发 者 不 再 需要 针对 特定 数据 来 设计 纯 手工 的 特征 提 


经 网 络 层 ， 深 
深度 学 习 方法 











至 此 ， 人 工 神 经 网 络 作为 一 种 全 
取 算 法 ， 从 而 大 大 提高 了 开发 算 


T 




















民 的 网 络 相 比 浅 层 的 多 


ws 























自动 特征 学 习 器 ， 使 得 我 们 不 需要 对 不 同 数据 开发 
法 的 效率 。 












































2 展示 了 深度 学 习 方 法 与 非 
































取 算法 。 我 们 因此 也 称 这 些 学 习 算 法 为 端 到 端 (End-to-end) 方法 。 但 值得 注意 的 是 ， 很 多 人 质 








往 缺 乏 透 明 性 











疑 ， 深 度 学 习 方 法 是 一 个 黑 盒子 (Black-box)， 我 们 并 不 知道 它 是 如 何 学 到 数据 特征 表达 的 ， 往 


和 可 解析 性 。 


























| 数据 ED 特征 工程 




















本 | ease mpl 结果 











[数据 J nesame Dan) 












































图 2 ”深度 学 习 方法 与 非 深 度 学 习 方法 的 区 别 














虽然 现在 看 来 ， 深 度 学 习 非 常 流行 ， 但 是 在 人 工 神 经 网 络 早期 发 展 阶段 ， 受 制 于 当时 计算 机 











算 力 和 黑 盒子 问题 ， 实 际 应 用 很 少 ， 并 未 受到 学 术 界 的 广泛 关注 。 

这 种 情况 直到 2012 年 才 得 到 了 改变 ， 当 年 一 个 叫 Alexnet (Krizhevsky et al., 2012) 的 模型 在 
ImageNet 图 像 分 类 竞赛 (Russakovsky et al., 2015) 中 取得 了 超过 其 他 方法 10% 以 上 的 性 能 。 从 此 ， 
深度 学 习 开 始 受 到 越 来 越 多 的 关注 ， 深 度 学 习 方法 开始 在 很 多 不 同 领 域 超越 非 深 度 学 习 方 法 ， 比 
计算 机 视觉 (Girshick, 2015; Johnson et al., 2016; Ledig et al., 2017; Pathak et al., 2016; 
Vinyals et al., 2016) 和 自然 语言 处 理 (Bahdanau 





如 大 家 熟悉 的 















































强化 学 习 





et al., 2015). 























深度 学 习 虽 然 具有 了 很 强大 的 数据 表达 能 力 ， 但 不 足以 建立 一 个 智能 的 人 工 智 能 系统 。 这 是 














因为 人 工 智 能 




















系统 不 仅 需要 从 给 定 的 数据 中 学 
































习 ， 而 且 还 要 像 人 类 那样 学 习 与 真实 世界 交互 。 强 








化 学 习作 为 机 器 学 习 的 一 个 分 支 ， 即 可 让 计算 机 与 环境 进行 交互 学 习 。 


简单 来 说 





， 强 化 学 习 把 世界 分 为 两 个 部 分 : 


Wia (Environment) 与 智能 体 〈Agent)。 智 能 体 




















通过 执行 动作 〈Action) 来 与 环境 交互 ， 并 获得 环境 的 反馈 。 在 强化 学 习 中 ， 环 境 的 反馈 是 以 奖 





























Hi (Reward) 形式 体现 的 。 智 能 体 学 习 如 何 “ 更 好 ”地 与 环境 交互 ， 以 尽 可 能 获得 更 大 的 奖励 。 








这 个 学 习 过 程 建 立 了 环境 与 智能 体 间 的 环 路 ， 通 过 强化 学 习 算法 来 提升 智能 体 的 能 
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深度 强化 学 习 


深度 强化 学 习 结 合 了 深度 学 习 和 强化 学 习 各 自 的 优点 来 建立 人 工 智 能 系统 ， 主 要 在 强化 学 习 
中 使 用 深度 神经 网 络 的 强大 数据 表达 能 力 ， 例 如 价值 函数 《Value Function) 可 以 用 神经 网 络 来 近 
似 ， 以 实现 端 到 端的 优化 学 习 。 

DeepMind 是 一 家 成 立 于 伦敦 、 以 科研 为 主导 的 人 工 智 能 技术 公司 ， 在 深度 强化 学 习 历 史上 
具有 非常 重要 的 地 位 。2013 4E, 仅 在 AlexNet 提出 一 年 以 后 , 他 们 就 发 表 了 论文 Playing Atari with 
Deep Reinforcement Learning, 该 文 基于 电子 游戏 的 原始 画面 作为 输入 , 学 习 了 7 种 游戏 .DeepMind 
的 方法 不 需要 手工 设计 特征 提取 算法 ， 在 6 个 游戏 中 优 于 之 前 的 方法 ， 甚 至 在 1 个 游戏 中 赢 了 
AŽ. 

2017 年 ，DeepMind 的 AlphaGO 围棋 算法 在 中 国 打败 了 世界 第 一 围棋 大 师 一 一 柯 洁 。 该 事件 
标志 着 人 工 智 能 具备 比 人 类 更 好 表现 的 潜力 。 深 度 强化 学 习 是 机 器 学 习 的 一 个 子 领域 ， 具 有 实现 
通用 人 工 智能 (Artificial General Intelligence, AGI) 的 潜力 。 但 是 还 有 很 多 的 挑战 需要 我 们 解决 ， 
才能 真正 地 实现 
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见 这 个 理想 的 目标 。 























TensorLayer 








强化 学 习 的 算法 很 多 ， 而 且 从 学 习 算 法 到 实现 算法 有 一 定 的 距离 。 因 此 ， 本 书 中 很 多 章节 会 
有 实现 教学 ， 我 们 会 展示 一 些 算法 中 的 关键 部 分 是 如 何 实现 的 。 自 从 深度 学 习 变 得 流行 以 来 ， 出 
现 了 很 多 开源 的 框架 ， 比 如 TensorFlow、Chainer、Theano 和 PyTorch 等 ， 以 支持 神经 网 络 的 自动 
优化 。 在 本 书 中 ,我 们 选择 TensorLayer， 一 个 为 科研 人 员 和 专业 工程 师 设 计 的 深度 学 习 与 强化 学 
习 库 。 该 库 获 得 了 ACM Multimedia 2017 年 度 最 佳 开源 软件 奖 。 在 本 书 定稿 时 ，TensorLayer 2.0 
支持 TensorFlow 2.0 作为 后 端 计算 引擎 ， 而 在 下 一 版 本 中 ，TensorLayer 将 会 支持 更 多 的 其 他 计算 
引擎 ， 如 华为 MindSpore， 以 更 好 地 支持 国内 外 的 AI 训练 芯片 。 更 多 关于 TensorLayer 的 最 新 信 
息 ， 请 访问 GitHub WM. 
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本 书 尽 可 能 地 减少 了 和 数学 相关 的 内 容 ， 以 帮助 读者 更 加 直观 地 理解 深度 强化 学 习 。 本 书 的 








































































































数学 符号 约定 如 下 。 
^D 
基础 符号 
x scalar， 标 量 
x vector, 向 量 
X matrix, JERE 
R the set of real numbers, KAE 
dy derivative of y with respect to x， 标 量 的 导数 
partial derivative of y with respect to zx， 标量 的 偏 导 数 
Vay gradient of y with respect to x， 问 量 的 梯度 
Vxy matrix derivatives of y with respect to X, ERER SH 
P(X) a probability distribution over a discrete variable， 离 散 变量 的 概率 分 布 
p(x) a probability distribution over a continuous variable, or over a variable whose type has 
not been specified， 连 续 变 量 (或 者 未 定义 连续 或 者 离散 的 变量 ) 的 概率 分 布 
Xp the random variable X has distribution， 随 机 变量 X 满足 概率 分 布 p 
[X] expectation of a random variable， 随 机 变量 的 期 望 
Var[X] variance of a random variable， 随 机 变量 的 方差 
Cov(X,Y) covariance of two random variables， 两 个 随机 变量 的 协 方差 





XVII 


数学 符号 





DkL(PlIQ) Kullback-Leibler divergence of P and Q， 两 个 概率 分 布 的 KL 散 度 


A'(az;p,X) Gaussian distribution over æ with mean p and covariance X, FIEX u 














Hy x sos 
强化 学 习 符 号 


s,s! states, JÑ% 
a action, aE 
r reward， 奖 励 
reward function, X Jp) PK ži 


S set of all non-terminal states， 非 终结 状态 





S+ set of all states, including the terminal state， 全 部 状态 ， 


A set of actions, JERE 








R set of all possible rewards， 奖 励 集合 


P transition matrix, {EIERE 











t discrete time step， 离 散 时 间 步 
T final time step of an episode， 回 合 内 最 终 时 间 步 











St state at time +， 时间 t 的 状态 


At action at time t, AY TR] 的 动作 


























协 方差 











包括 终结 状态 











Ri reward at time t, typically due, stochastically, to A; and S,, EFE) t 的 奖励 ， 通 常 为 




















随机 量 ， A, 和 S, 决定 


G, return following time t, [n] 


























go n-step return following time t, n 步 回报 





G?  A-return following time t, 4- 回报 


T policy, decision-making rule， 策 略 


m(s) action taken in state s under deterministic policy n, WR 


的 动作 
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nifi ae M 


策略 m. dA s 时 





p(s’, r|s, a) 


p(s'|s, a) 


o, B 





probability of taking action a in state s under stochastic policy x"， 根 据 随机 性 策略 
T， 状 态 s 时 执行 动作 a 的 概率 

probability of transitioning to state s’, with reward r, from state s and action w， 根 据 
状态 s 和 动作 a， 使 得 状态 转移 成 * 且 获 得 奖励 v 的 概率 

probability of transitioning to state s’, from state s taking action a, 根据 状态 s 和 
VE a， 使 得 状态 转移 成 s 的 概率 

value of state s under policy 7 (expected return)， 根 据 策略 m, IRA s 的 价值 C 
报 期 望 ) 


value of state s under the optimal policy， 根 据 最 优 策 略 ， 状 态 s 的 价值 


























b 
c 




















H 








value of taking action a in state s under policy x， 根据 策略 +， 在 状态 s 时 执行 动 
TE a 的 价值 


value of taking action a in state s under the optimal policy， 根 据 最 优 策略 ， 在 状态 
s 时 执行 动作 a 的 价值 


estimates of state-value function va (s) or vs(s)， 状 态 价值 函数 的 估计 














estimates of action-value function ga (s, 4) or qx (s,Q)， 动 作价 值 函 数 的 估计 

















trajectory, which is a sequence of states, actions and rewards, 
du (So, Ao, Ro, $1, Ai, Ri, aaa )， 状态 、 动作 、 奖励 的 轨迹 
reward discount factor, y € [0,1， 奖 励 折扣 因子 








probability of taking a random action in e-greedy policy， 根 据 e- 贪 焚 策 略 ， 执 行 随 
机 动作 的 概率 


step-size parameters， 步 长 


decay-rate parameter for eligibility traces， 资 格 迹 的 衰减 速率 


强化 学 习 中 术语 总 结 





除了 在 本 

















开头 的 数学 符号 法 则 中 定义 的 术语 ， 强 化 学 习 中 常见 内 容 的 相关 术语 总 结 如 下 : 











R 是 奖励 函数 ，R = R(S1) 是 MRP 中 状态 S, 的 奖励 ，Ri = R(S;, Aj) 是 MDP 中 的 奖励 ， 


DS: ES。 





R(T) 是 轨迹 7 的 -折扣 化 回报 ，R(7) = 359 YiRi。 
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XX 


p(T) 是 轨迹 的 概率 : 





Distribution ) 。 





- p(T) = po(So) [IY P(St41/St) 对 于 MP 和 MRP, po(So) 是 起 始 状态 


分 布 (Start-State 





- p(TI7) = po(So) I (AlS) 对 于 MDP，po(So0) 是 起 始 状态 分 布 。 













































































































































































































































































J(7) 是 策略 r 的 期 望 回报 ，J(r) = 三 p(rlr)Rr) = Er~x[R(7)]。 

7* 是 最 优 策 略 : n" = arg maxr (s Jo 

Un(s) 是 状态 s 在 策略 x 下 的 价值 (期 望 回 报 )。 

v.(s) 是 状态 s 在 最 优 策略 下 的 价值 (期 望 回报 )。 

dn(s, a) 是 状态 s 在 策略 x 下 采取 动作 a 的 价值 (期 望 回报 )。 

qx (s,Q) 是 状态 s 在 最 优 策 略 下 采取 动作 a 的 价值 (期 望 回 报 )。 

V (s) 是 对 MRP 中 从 状态 s 开始 的 状态 价值 的 估计 。 

V* (s) 是 对 MDP 中 在 线 状 态 价值 函数 的 估计 ， 给 定 策略 rx， 有 期 望 回报 : 
- V"(s) & v. (s) = Ec. 4 [R(r)|So = s] 

Q" (s, a) 是 对 MDP 下 在 线 动作 价值 函数 的 估计 ， 给 定 策略 +， 有 期 望 回报 : 
— Q"(s,a) z qx(s,a) = Er~a[R(T)|So = s, Ao = a] 

V*(s) 是 对 MDP 下 最 优 动作 价值 函数 的 估计 ， 根 据 最 优 策略 ， 有 期 望 回报 : 
= V*(s) z v.(s) = max, E,.,[R(r)|So = s] 

Q* (s, a) 是 对 MDP 下 最 优 动 作价 值 函数 的 估计 ， 根 据 最 优 策 略 ， 有 期 望 回报 : 
- Q*(s,a) © q.(s, a) = max, Ez, [|R(r)|So = s, Ao = a] 

A7 (s, a) 是 对 状态 s 和 动作 a 的 优势 估计 函数 : 
- A*(s,a) = Q7(s,a) — V” (s) 

在 线 状 态 价 值 函数 v(s) 和 在 线 动作 价值 函数 qr(s,a) 的 关系 : 
- ur(s) = Eas [qs (5, a)] 

最 优 状态 价值 函数 v (s) 和 最 优 动作 价值 函数 qu (s, a) 的 关系 : 
— v.(s) = max, q.(s,a) 

a.(s) 是 状态 s 下 根据 最 优 动作 价值 函数 得 到 的 最 优 动 作 : 
— ax(s) = arg maxa q.(s, a) 

对 于 在 线 状态 价值 函数 的 贝尔 曼 方程 : 
= vr(s) = Earva(.ls),s’~p(.ls,a) (8; @) 十 ?or(s | 

对 于 在 线 动作 价值 函数 的 贝尔 曼 方程 : 
- q«(s, a) = Essa) (5; a) + Eanair [n (s',@')] 












































于 最 优 状态 价值 函数 的 贝尔 曼 方 程 : 
a)[R(s, a) + yv. (s')] 











= v,(s) = max, Es,~p(.|s, 


对 于 最 优 动作 价值 函数 的 贝尔 曼 方程 : 
R(s,a) 十 YInaxa qx(s’, a/)] 






































qx (5, a) = s/w p(-|s,a) 
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本 书 第 一 部 分 包括 6 个 章节 ， 介 绍 深度 学 习 、 强 化 学 习 及 广泛 应 用 的 深度 强化 学 习 算法 及 其 
实现 。 有 具体 来 说 ， 前 两 章 介 绍 深度 学 习 和 强化 学 习 的 基本 概念 ， 以 及 少量 深度 强化 学 习 的 基本 知 
识 ， 这 些 内 容 对 读者 阅读 后 续 章 节 非 常 重要 。 如 果 您 已 经 掌握 了 这 些 基 本 知识 ， 完 全 可 以 跳 过 这 
两 个 章节 。 但 我 们 还 是 建议 您 阅读 第 2 章 ， 这 有 助 于 熟悉 本 书 的 术语 和 数学 公式 。 

第 3 章 介 绍 了 强化 学 习 算 法 的 分 类 ， 以 帮助 大 家 从 不 同 的 角度 来 对 深度 强化 学 习 算 法 有 全 
局 的 认识 。 分 类 包括 基于 模型 的 (Model-Based) 与 无 模型 的 (Model-Bree) 方法 、 基 于 策略 的 
(Policy-Based) 与 基于 价值 的 《Value-Based) 方法 、 蒙 特 卡 罗 (Monte Carlo, MC) 与 时 间 差 分 
(Temporal Difference, TD) 方法 、 在 线 策略 (On-Policy) 与 离线 策略 COff-Policy) 方法 ， 等 等 。 
如 果 读 者 在 阅读 本 书 其 他 章节 时 ， 对 算法 的 分 类 与 属性 有 困惑 ， 可 回 到 第 3 章 仔细 思考 。 我 们 会 
在 第 4 一 6 章 详细 介绍 一 些 常见 的 深度 强化 学 习 算 法 ， 通 过 实例 代码 帮助 大 家 深入 理解 算法 的 细 
节 和 实现 技巧 。 
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度 学 习 入 门 








深度 学 习 是 深度 强化 学 习 的 习 
简单 的 单 层 神经 网 络 天 






































要 构成 部 分 。 本 章 将 首先 简要 介绍 深度 学 习 的 基础 知识 ， 会 从 
































F 始 ， 逐 渐 引 入 更 加 复杂 且 学 习 能 力 更 强 的 神经 网 络 模型 ， 比 如 卷 积 神经 网 











络 和 循环 神经 网 络 的 模型 。 本 章 在 最 后 将 提供 一 些 代码 样 例 ， 用 于 介绍 深度 学 习 的 实现 过 程 。 


1.1 简介 


IB] 7 | 




















如 果 您 已 经 非常 熟悉 深度 学 习 ， 则 可 以 从 第 2 章 开 始 阅读 。 如 果 您 想 对 深度 学 习 中 的 部 分 














内 容 进行 深入 的 学 习 和 了 解 ， 推 荐 您 参阅 其 他 相关 图 书 ， 例 如 Pattern Recognition and Machine 























Learning (Bishop, 2006) 和 Deep Learning (Goodfellow et al, 2016)。 与 经 典 强化 学 习 不 同 的 是 ， 深 




















们 可 以 大 致 将 深度 学 习 模 型 分 为 以 下 两 大 类 。 














的 任务 ， 例 如 ， 分 类 任务 和 回归 任务 。 具 体 来 说 ， 在 分 类 任务 中 ， 模 型 需要 根据 输入 数据 从 备 选 
。 如 果 一 个 任务 中 仅 有 两 个 备 选 类 别 且 模型 只 需要 从 中 选取 一 个 正确 











类 别 中 选择 正确 的 目标 类 另 























判别 模型 用 于 建 模 条 件 概率 p(y|z)， 


判别 模型 基于 输入 数据 >， 预测 相对 应 的 村 
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度 强化 学 习 是 基于 深度 学 习 模型 ， 即 深度 神经 网 络 ， 来 利用 大 数据 和 高 性 能 计算 强大 优势 的 。 我 











其 中 z 代表 输入 数据 ， 而 y 代表 输出 目标 。 也 就 是 说 ， 
签 y。 顾 名 思 义 ， 判 别 模 型 大 多 应 用 于 需要 进行 判断 




















































































































的 目标 类 别 ， 则 为 二 分 类 任务 ， 是 最 为 基本 的 分 类 任务 。 例 如 ， 在 情感 分 析 中 (Maas etal., 2011), 














根据 文本 内 容 ， 判 断 文本 表达 了 正面 的 情绪 还 是 负面 的 情绪 ， 即 二 分 类 任务 。 与 之 相对 应 的 ， 在 


多 标签 分 类 任务 中 ， 备 选 类 别 中 可 能 同 H 





在 很 多 情况 下 ， 









































对 有 多 个 正确 的 目标 类 别 。 






































个 分 类 模型 并 不 直接 指定 目标 类 别 , 而 会 给 每 一 个 备 选 类 别 计算 一 个 概率 。 








例如 ， 模 型 根据 茶 个 数据 样 例 ， 认 为 它 有 80% 的 概率 来 自 类 别 A， 而 男 有 15% 的 概率 来 自 类 别 























B, 5% 的 概率 来 





类 别 C。 之 所 以 使 ) 








] 这 利 








ES 
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于 概率 的 表征 ， 主 要 是 为 了 便于 在 训练 阶段 对 模型 





1.2 























进行 优化 。 深 度 学 习 已 经 在 很 多 像 区 
的 分 类 任务 上 取得 了 巨大 的 成 功 。 
分 类 任务 的 输出 均 为 离散 的 类 别 标签 ， 而 












































条 件 概 率 建 模 的 ， 我 们 就 认为 它 是 判别 模型 。 








回归 任务 则 不 同 。 回 
如 利用 过 去 的 交通 数据 来 预测 未 来 一 段 时 间 内 的 车 速 (Liao et ab, 2018a,b)。 只 要 回归 














归 任 务 的 输出 是 ; 




















像 分 类 (Krizhevsky et al., 2009) 和 文本 分 类 (Yang et al., 2019) 


连续 的 数值 ， 
模型 是 基于 


生成 模型 用 于 建 模 联合 概率 p(z,y)。 生 成 模型 通常 对 可 观测 数据 的 分 布 进行 建 模 ， 从 而 达 
































任务 ， 判 别 


布 。 下 
































— p(z,y-1) 
plz) ^ 


3 p(y = 1x) 
KE BREF 



































EL 2S PA A PP OR UL ETT AIAN TA]. RR DL 
生成 模型 先 学 会 创造 数据 ， 再 去 学 习 如 何 判别 数 
据 ， 当 学 习 了 联合 概率 分 布 p(z,y) 后 即 可 以 学 会 判别 ， 比 如 给 定 观测 输入 zx， 输出 目标 为 1 的 概 


就 是 可 观测 数据 在 给 定 标签 情况 下 的 条 件 概率 。 





经 网 络 都 是 判别 模型 ， 无 论 其 
为 很 多 生成 类 任务 在 具体 实现 中 都 可 以 简化 为 分 类 或 者 下 


图 像 和 对 
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像 朴 素 贝 叶 


像 、 重 构 
















































































斯 对 似 然 概率 (Likelihood) p(zly) 建 模 ， 
































目的 是 用 于 判别 类 任务 还 是 生成 类 任务 。 这 是 
J4 


























2019) 可 以 简化 为 根据 问题 选择 文本 : 























词 表 中 根据 概率 选择 单词 ， 并 组 合成 
使 用 了 分 类 的 方法 ， 男 一 个 则 使 用 了 下 
具体 来 说 ， 本 章 将 介绍 深度 学 


























ag 


















































它们 都 在 尝试 生成 文本 ,但 是 















































]。 本 章 也 将 介绍 基础 的 深度 





元 、 激 活 函数 和 优化 器 等 ， 同 时 将 














CNNs), EUR STAT 
和 TensorLayer 介绍 深度 神经 网 络 的 实现 样 例 。 








12 ”感知 器 


TUS 


单 输出 


































































































神经 元 或 节点 是 深度 市 
出 的 ， 也 是 生物 神经 元 的 一 种 
经 元 被 激活 后 ， 通 过 轴 突 将 电信 和 号 传播 给 其 
















































































经 网 络 最 基本 的 单元 。 旬 























| 象 表 示 。 在 大 脑 中 ， 
bh 附近 的 生物 神经 元 。 在 真实 的 生物 系统 中 ， 补 


到 生成 可 观测 数据 的 目的 。 生 成 对 抗 网 络 (Generative Adversarial Networks, GANs) (Goodfellow 
et al., 2014) 就 是 这 样 一 个 例子 , 它 被 用 于 生成 图 
的 深度 学 习 技术 与 可 观测 数据 的 分 布 并 没有 显 式 的 关系 ， 
可 观测 的 真实 样本 之 间 的 相似 程度 。 与 此 同时 ， 
解决 分 类 任务 (Ng et al., 2002; Rish et al., 2001)。 尽 管 生成 模型 和 判别 模型 都 可 以 ) 
模型 关注 的 是 哪 一 个 标签 更 适合 可 观测 数据 ， 而 生成 模型 则 尝试 建 模 可 观测 数据 的 分 


ARAM. 然而 , 类 似 于 GANs 
为 深度 学 习 技 术 更 关注 生成 的 样本 和 
斯 (Naive Bayes) 的 生成 模型 也 用 于 
j 于 解决 分 类 


也 








大 








问题 。 例 如 ， 问 答 系统 (Devlin et al., 
相应 的 段落 ， 自 动 摘要 (Zhang et al., 2019b) 可 以 简化 为 从 
商 要 。 在 这 两 种 场景 下 ， 
习 的 方法 。 
习 相 关 的 基本 元 素 和 技术 ， 例 如 构造 深度 字 
介绍 深度 学 习 相 关 的 应 
例如 多 层 感 知 器 (Multilayer Perceptron, MLP), 42% 
经 网 络 (Recurrent Neural Networks, RNNs). 最后，1.10 节 将 基本 


A 


经 网 络 必 需 的 神经 
上 经 网 络 ， 
经 网 络 (Convolutional Neural Networks, 


F TensorFlow 


经 元 的 概念 最 初 是 基于 大 脑 中 生物 神经 元 提 

















生物 神经 元 通过 树 

















R 接受 电信 和 号 , UGE Wt 


















































的 信息 传递 并 不 是 在 一 瞬间 发 生 的 ， 而 是 需要 经 过 一 步 一 步 传递 的 过 程 ， 这 个 过 程 可 以 形象 地 理 
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解 成 激活 一 个 神经 网 络 。 当 前 , 深度 学 习 的 研究 更 多 地 依赖 深度 神经 网 络 (Deep Neural Networks, 
简称 DNNs), 亦 称 人 造 神经 网 络 (Artificial Neural Networks, 简称 ANNs). 深度 神经 网 络 中 的 神经 
元 的 输入 和 输出 都 是 数值 。 一 个 神经 元 可 以 跟 下 一 层 的 多 个 神经 元 同时 相连 ， 也 可 以 跟 上 一 层 的 
多 个 神经 元 同时 相连 。 有 具体 来 说 ， 每 个 神经 元 将 上 一 层 神经 元 的 输出 进行 聚合 ， 再 通过 激活 函数 
决定 其 最 终 的 输出 。 如 果 这 些 聚 集 的 输入 信号 足够 强 ， 那么 这 个 激活 函数 将 会 “激活 ”(Activate) 
这 个 神经 元 ， 然 后 这 个 神经 元 会 将 一 个 有 高 数值 的 信号 传递 给 下 一 层 网 络 。 相 对 地 ， 如 果 输 入 信 
号 不 够 强 ， 那 么 一 个 低 数值 信号 将 被 传递 下 去 。 

一 个 神经 网 络 可 以 有 任意 多 个 神经 元 ， 而 这 些 神经 元 彼此 可 以 有 很 多 随机 的 连接 。 但 是 为 了 
运算 更 加 容易 ， 神 经 元 往往 是 层 层 递 进 的 。 一 般 来 说 ， 一 个 神经 网 络 至 少 会 有 两 层 : 输入 层 和 输 
出 层 〈 见 图 1.1) 。 这 个 网 络 可 以 被 公式 (1.1) 描述 ， 它 可 以 做 一 些 简 单 的 决定 任务 ， 比 如 帮助 几 
个 学 生根 据 天 气 的 情况 具体 决定 他 们 是 否 外 出 踢 足 球 ， 网 络 输 出 的 2 是 一 个 分 数 ， 分 数 越 高 则 代 
表 越 可 以 去 踢 足 球 。 这 个 分 数 取 决 于 三 个 因素 : OD 足球 场 的 使 用 费用 ri 2) RA zz; 3) EER 
场 的 时 间 x3。 如 果 天 气 对 大 家 做 这 个 决定 比较 重要 ， 则 其 相对 应 的 网 络 权 重 wo 会 有 较 大 的 绝对 
值 。 同 样 地 ， 那 些 对 做 这 个 决定 影响 较 小 的 因素 ， 所 对 应 的 网 络 权 重 的 绝对 值 就 会 较 小 。 如 果 一 
个 权重 被 设置 为 零 ， 那 么 它 所 对 应 的 输入 就 对 最 终 的 结果 完全 没有 影响 。 比 如 ， 有 的 学 生 有 钱 ， 
不 在 乎 足球 场 的 费用 ， 则 wi 为 0。 我 们 把 具有 这 样 结构 的 网 络 叫 作 单 一 层 网 络 ， 也 叫 作 感 知 器 


(Perceptron). 


































































































































































































































































































































































































































































































Z = WL, + WoXQ + W3X3 (1.1) 


输入 层 输出 层 


ORO 





















































图 1.1 有 三 个 输入 神经 元 和 一 个 输出 神经 元 的 神经 网 络 


























(ize SRIF 
偏差 Bias) 是 神经 元 所 附带 的 一 个 额外 的 标量 ， 
个 有 偏差 5 的 单 层 神经 网 络 可 以 用 公式 (1.2) 表达 : 






































] 来 偏 移 神经 网 络 的 输出 。 图 1.2 所 示 的 
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偏差 可 以 帮助 一 个 神 
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[425 z 为 正 数 ， 
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图 1.2 一 个 有 偏差 的 单 层 神经 网 络 






























































所 对 应 的 标签 y 为 1， 反 之 为 0: 


1 z>0 
y= 
0 z<0 


经 网 络 更 好 地 学 习 数 据 。 我 们 不 妨 定义 以 下 二 分 类 问题 : TF H 








co 
XR 


(1.3) 


二 分 类 任务 的 样本 数据 分 布 例子 如 图 1.3 所 示 。 我 们 现在 需要 找到 最 符合 这 些 数 据 的 权重 和 























偏差 。 我 们 把 这 些 样 本 数据 分 成 两 个 不 同 的 类 别 的 边界 定义 为 决策 边界 。 正 式 来 说 ， 这 个 边界 是 


[z1,22, X 
我 们 
所 示 ， 如 





3|wiz1 二 woro + waza + b 
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首先 把 这 个 问题 简化 到 只 有 两 个 输入 的 情况 下 ， 即 z = wg + wore b. W 











果 没 有 偏差 值 ， 也 就 是 说 5 


























0, MAY 


也 
是 ， 这 样 很 明显 不 符合 数据 的 分 布 ， 
f 
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6 交点 就 为 (0, -过 ) 和 (- 2,0). XX 








图 1.3 左 


二 0， 那么 决策 边界 必须 穿 过 坐标 系 的 原点 《左下 的 线 )。 但 























因为 我 们 的 数据 点 都 是 在 这 个 边界 的 一 侧 。 如 果 偏 差 值 不 是 




















F 来 看 ， 如 果 我 们 的 权重 和 偏差 








(ice, WAG 


RI TI 


能 更 好 地 符合 数据 分 布 。 
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就 会 变 成 如 图 1.3 右 所 示 的 平面 。 
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经 元 有 三 个 输入 的 时 候 ，z = wiz1 4 























W2T2 十 W3T3 + b, 此 时 的 边界 
在 一 个 如 单 层 神经 网 络 〈 见 公式 (1.2)) 的 线性 模型 ， 
也 被 称 为 超 平面 (Hyperplane )。 














， 这 样 的 








第 1 章 深度 学 习 入 门 
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Wi 
13 线性 模型 分 别 在 两 个 输入 和 三 个 输入 场景 下 的 决策 边界 。 E: Z = WL, + wr» bo d. 
z = W121 + Wax» + W373 十 b。 若 没有 偏差 ， 则 决策 边界 必须 经 过 原点 ， 不 能 很 好 地 分 类 
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多 输出 


















































单 层 神经 网 络 可 以 有 多 个 神经 元 。 图 1.4 展示 了 一 个 有 两 个 输出 神经 元 的 单 层 网 络 ， 由 公 
X (1.4) 所 得 。 因 为 每 一 个 输出 都 和 全 部 输入 相连 ， 所 以 输出 层 也 被 称 为 密集 层 (Dense Layer) 或 
者 全 连接 层 (Fully-Connected (FC) Layer): 




































































zı = 1121 十 w1232 十 W1323 + by 














Z2 = Wai; + U2222 十 Wo313 + bo (1.4) 






































14 一 个 有 三 个 输入 和 两 个 输出 的 神经 元 的 神经 网 络 
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在 实践 中 ， 全 连接 层 也 可 以 被 矩阵 乘法 实现 : 

































































z-We+b (1.5) 
HF, Wem"*" 是 用 来 表示 权重 的 矩阵 ，z eR”, x €CR",DER™ 分 别 用 来 表示 输出 、 输 
人 
T1 
Zi Wil W12 3 bi 
= 2Z2 | + (1.6) 
Z2 w21 W22 W23 b» 
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多 层 感 知 器 (Multi-Layer Perceptron, MLP) (Rosenblatt, 1958; Ruck et al., 1990) 最 初 指 至 少 
两 个 全 连接 层 的 网 络 。 图 1.5 展现 了 一 个 有 四 个 全 连接 层 的 多 层 感知 器 。 那些 在 输入 层 和 输出 层 
中 间 的 网 络 层 被 隐藏 (Hidden) 了 ， 因 为 一 般 来 说 从 网 络 外 面 是 没有 办 法 直接 接触 它们 的 ， 所 以 
被 统称 为 隐藏 层 (Hidden Layers)。 相 比 只 有 一 个 全 连接 层 的 网 络 ，MLP 可 以 从 更 复杂 的 数据 
学 习 。 从 另外 一 个 角度 来 看 MP 的 学 习 能 力 是 大 于 单一 层 网 络 的 学 习 能 力 的 。 但 是 拥有 更 多 的 
隐藏 层 并 不 意味 着 一 个 网 络 会 有 更 强 的 学 习 能 力 。 通 用 近似 定理 说 的 是 : 一 个 有 一 层 隐藏 层 的 家 
经 网 络 〈 类 似 于 有 一 层 隐 藏 层 的 MLP) 和 任何 可 挤 压 的 激活 函数 〈 见 后 文 的 sigmoid 和 tanh) 在 
这 一 层 网 络 有 足够 多 神经 元 的 情况 下 ， 可 以 估算 出 任何 博 莱 尔 可 测 函 数 (Goodfellow et al., 2016; 
Hornik et al., 1989; Samuel, 1959)。 但 是 实际 上 ， 这 样 的 网 络 可 能 会 非常 难以 训练 或 者 容易 过 拟 合 
COverfit) 〈 见 后 文 ) 。 因 为 隐藏 层 非常 大 ， 所 以 一 般 的 深度 神经 网 络 都 会 有 几 层 隐藏 层 来 降低 训 
练 难度 。 

为 什么 需要 多 层 网 络 ? 为 了 回答 这 个 问题 我 们 首先 通过 逻辑 运算 的 几 个 例子 来 展示 一 个 网 
络 是 怎么 估算 一 个 方程 的 。 我 们 会 考虑 的 逻辑 运算 有 : 与 (AND)、 或 (OR)、 同 或 (XNOR), 
异 或 (XOR)、 或 非 (NOR)、 与 非 (NAND)。 这 些 运算 输入 都 是 两 个 二 进 制 数字 ， 然 后 输出 为 1 
或 者 0。 如 与 (AND )， 只 有 两 个 输入 同时 为 1，AND 才 会 输出 1。 这 些 简单 的 逻辑 计算 可 以 很 容 
易 就 被 感知 器 学 习 ， 就 像 公式 (1.7) 里 展现 的 那样 。 





































































































































































































































































































1 如 果 z>0 
f(x) = , 2 = wit, + were +b (1.7) 
0 其 他 情况 








图 1.6 展示 了 被 感知 器 定义 的 决策 边界 可 以 很 轻松 地 把 AND. OR. NOR 和 NAND 运算 的 0 
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和 1 分 开 出 来 ， 但 是 ，XOR 或 XNOR 的 决策 边界 是 不 可 能 被 找到 的 。 
输入 层 隐藏 层 1 隐藏 层 2 隐藏 层 3 输出 层 



















































































图 1.5 一 个 具有 三 个 隐藏 层 和 一 个 输出 层 的 多 层 感知 器 。 图 中 使 用 ap 表示 神经 元 ， 其 中 p 代表 
层 的 索引 ，i 代表 输出 的 索引 
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图 16 AL: 有 两 个 输入 和 一 个 输出 的 感知 器 。 剩 下 的 是 : 不 同 的 用 来 把 0 (x ) 和 1 (e) AA 
的 决策 边界 。 在 这 个 单 层 感知 器 中 ， 能 找到 AND、OR、NOR 和 NAND 的 决策 边界 ， 但 找 
不 到 可 以 实现 XOR 和 XNOR 的 决策 边界 















































因为 我 们 不 能 用 一 个 线性 模型 像 单个 感知 器 那样 直接 估算 XOR, 所 以 必须 要 转化 输入 。 图 1.7 
展现 了 一 个 用 有 一 层 隐 藏 层 的 MLP 去 估算 XOR， 这 个 MLP 首先 将 通过 估计 OR 和 NAND 运算 
把 21,22 转换 到 了 一 个 新 的 空间 ， 然 后 在 这 个 转换 过 的 空间 里 ， 这 些 点 就 可 以 被 一 条 估算 AND 
的 平面 分 开 了 。 这 个 被 转换 过 后 的 空间 也 被 称 为 特征 空间 。 这 个 例子 说 明了 怎么 通过 特征 的 学 习 
来 改善 一 个 模型 的 学 习 能 

























































































1.4 ie hae 





输入 层 隐藏 层 1 


CO) Z4 
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XOR 
图 17 Æ: 一 个 可 以 估算 XOR ÉI MP PHA: 把 原始 数据 点 转化 到 特征 空间 ， 从 而 使 得 这 些 

















数据 点 变 得 线 改 


1.4 ”激活 函数 


矩阵 的 加 减 和 乘除 运算 都 是 线性 运算 符 ， 但 是 一 个 线性 
例 来 说 ， 线 性 模型 不 能 轻易 地 估算 一 个 余弦 函数 。 因 为 大 多 数 深度 
能 被 简单 地 映射 到 一 个 线性 转换 ， 所 以 非 线性 在 深度 神经 网 络 里 至 关 重 要 。 
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模型 的 学 习 能 力 还 是 相对 有 限 的 。 举 


经 网 络 解决 的 真实 问题 都 不 



































实际 上 ， 深 度 学 习 网 络 的 非 线 性 是 通过 激活 函数 来 介入 的 。 这 些 激活 函数 都 是 针对 每 一 个 元 


A (Element-Wise) 运算 的 。 我 们 需要 这 些 激活 函数 来 帮助 模型 获得 





















































了 任意 数值 的 概率 向 量 。 激 


























活 函 数 的 选择 要 根据 具体 的 运用 场景 来 考虑 。 虽 然 有 一 些 激活 函数 在 大 多 数 的 情况 下 效果 都 是 不 















































错 的 ， 但 是 在 具体 的 实际 运用 中 ， 可 能 还 有 更 好 的 选择 。 所 以 激活 函数 的 设计 至 今 都 还 是 一 个 活 
跃 的 研究 方向 。 本 节 主 要 介绍 四 种 非常 常见 的 激活 函数 : sigmoid、tanh、ReLU 和 softmax。 












































逻辑 函数 sigmoid 在 作为 激活 函数 时 , 将 输出 控制 在 了 0 和 1 之 间 , 如 公式 (1.8) 所 示 。sigmoid 


方程 可 以 在 网 络 的 最 后 一 层 ， 使 用 来 做 一 些 分 类 的 任务 ， 以 代表 0%~100% 的 概率 。 比 如 说 ,一 
个 二 维 的 分 类 器 可 以 把 sigmoid 方程 放 在 最 后 一 层 ， 来 把 其 数值 局 限 在 0 和 1 之 中 ， 然 后 我 们 可 







































































以 用 一 个 简单 的 临界 值 决 定 最 终 和 输出 的 标签 是 什么 〈0 或 1)。 











» 1 
|^ l+e 


f(z) 





(1.8) 





5 sigmoid 函数 类 似 的 是 ，hyperbolic tangent (tanh) 把 输出 值 控制 到 了 —1 1l s 


如 公式 (1.9) 所 定义 那样 。 















































tanh 函数 可 以 在 隐藏 层 中 使 用 来 提高 非 线 性 (Glorot et aL, 2011). "t 1H 


可 以 在 输出 层 中 使 用 ， 比 如 网 络 可 以 输出 像素 数值 在 -1 和 1 的 图 像 。 














e* —e 7 


fz) = ez + e 一 := 





(1.9) 








2.0] —— sigmoid 
tanh 
15] — ReLU ReLU 
sigmoid 
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tanh 





—1.0 4 
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图 1.8 展现 三 个 元 素 单 位 运用 的 方程 : sigmoid, tanh 和 ReLUs sigmoid 把 数值 限制 在 了 0 和 1 之 
间 ， 而 tanh 则 把 数值 限制 在 了 一 1 和 1 之 间 。 当 输入 是 负数 时 ，ReLU 则 输出 0， 但 当 输入 
是 正 数 时 ， 其 输出 等 于 输入 












































在 公式 (1.10) 中 ， 我 们 定义 了 整流 线性 单元 (Rectified Linear Unit, ReLU) 函数 ， 也 叫 作 
rectifier。ReLU 被 广泛 地 使 用 于 不 同 的 研究 当中 (Cao et al., 2017; He et al., 2016; Noh et al., 2015), 
在 很 多 层 的 网 络 中 ReLU 通常 会 比 sigmoid 和 tanh 性 能 更 好 (Glorot et al., 2011)。 
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f(z) = (1.10) 


IK 











在 实际 运用 中 ，ReLU 有 以 下 优势 。 
。 更 易 实 现 和 计算 : 在 实现 ReLU 的 过 程 中 ， 首 先 我 们 只 需要 把 其 数值 和 0 做 对 比 ， 然 后 根 
据 结果 来 设 定 输出 是 0 还 是 z。 而 我 们 在 实现 sigmoid 和 tanh 的 过 程 当 中 ， 指 数 函 数 在 大 型 
网 络 中 会 更 难以 计算 。 
。 网 络 更 好 优化 : ReLU 接近 于 线性 ， 因 为 它 是 由 两 个 线性 函数 组 成 的 。 这 种 性 质 就 使 得 它 更 
容易 被 优化 ， 我 们 在 本 章 后 面 讲 解 优化 细节 时 再 讨论 。 

然而 ReLU 把 负数 变 成 0， 可 能 会 导致 输出 中 信息 的 丧失 。 这 可 能 是 因为 一 个 不 合适 的 学 习 
速率 或 者 负 的 偏差 而 导致 的 。 带 泄漏 的 〈Leaky) ReLU 则 解决 了 这 个 问题 (Xu et al., 2015)。 我 们 
在 公式 (1.11) 中 对 它 进行 了 定义 。 标 量 a 是 一 个 较 小 的 正 数 来 控制 斜率 ， 使 得 来 自负 区 间 的 信息 
也 可 以 被 保留 下 来 。 
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az M4z< 
f(z) = (1.11) 
z Azn 
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1.5 损失 函数 





有 参数 的 ReLU (PReLU) (He et al., 2015) 和 Leaky ReLU 很 近似 ， 它 把 a 看 作 一 个 可 以 训练 
的 参数 。 目 前 我 们 还 没有 具体 的 证 据 表 明 ReLU、Leaky ReLU 或 PReLU 哪个 是 最 好 的 ， 它 们 在 
不 同 应 用 中 往往 有 不 同 的 效果 。 
不 像 上 述 的 其 他 激活 函数 ， 在 公式 (1.12) 中 定义 的 softmax 函数 会 根据 前 一 层 网 络 的 输出 提 
供 归 一 化 。softmax 函数 首先 计算 指数 函数 e2， 然 后 每 一 项 都 除 以 这 个 值 进行 归 一 。 























































































































ei 


i 2a er 


在 实际 运用 当中 ，softmax 函数 只 在 最 后 的 输出 层 用 来 归 一 输出 向 量 z， 使 其 变 成 一 个 概率 
量 。 这 个 概率 向 量 的 每 一 个 值 都 为 非 负 数 ， 然 后 它们 的 和 最 终 会 为 1。 所 以 ，softmax 函数 在 多 
分 类 任务 中 被 广泛 使 用 ， 用 以 输出 不 同类 别 的 概率 。 


f(z)i (1.12) 













































































1.5 ju uA 


到 目前 为 上 ， 我 们 了 解 了 神经 网 络 结构 的 基础 知识 ， 那 么 网 络 的 参数 是 怎么 自动 学 习 出 来 的 
We? 这 需要 损失 函数 (Loss Function) 来 引导 。 有 具体 来 说 ， 损 失 函 数 通 常 被 定义 为 一 种 计算 误差 
的 量化 方式 ， 也 就 是 计算 网 络 输出 的 预测 值 和 目标 值 之 间 的 损失 值 或 者 代价 大 小 。 损 失 值 被 用 来 
作为 优化 神经 网 络 参 数 的 目标 ， 我 们 优化 的 参数 包括 权重 和 偏差 等 。 在 本 节 里 ， 我 们 会 介绍 一 些 
基本 的 损失 函数 ，1.6 节 会 介绍 如 何 使 用 损失 函数 优化 网 络 参 数 。 
























































































































































SE SUB AE 


TESTA SCR ZA, EEG A PRI MES: Kullback-Leibler (KL) 散 度 ， 其 作用 是 衡 
量 两 个 分 布 P(z) 和 Q(z) 的 相似 度 : 






























































Pua (PQ) = Esp | 108 2 = 


Oa) | = Ee~Pllog PG) — log Q(@)] (1.13) 


KL 散 度 是 一 个 非 负 的 指标 ， 并 且 只 有 在 PRI Q 两 个 分 布 一 样 时 才 取 值 为 0。 因 为 KL 散 度 
第 一 个 项 和 Q 没有 关系 ， 我 们 引入 交叉 灼 概念 并 把 公式 的 第 一 项 移 除 。 






























































H(P,Q) = —Ez~p log Q(z) (1.14) 





























丸 此 ， 通 过 Q sig SE SCR ST FI, KL 散 度 。 在 多 类 别 分 类 任务 中 ， 深 度 神经 网 
络 通过 softmax 函数 输出 的 是 不 同类 别 概率 的 分 布 ， 而 不 是 直接 输出 一 个 样本 属于 的 类 别 。 所 以 ， 
我 们 可 以 用 交叉 炉 来 测量 预测 分 布 有 多 好 ， 从 而 训练 网 络 。 

以 一 个 二 分 类 任务 为 例 。 在 二 分 类 中 ， 每 一 个 数据 样本 zx; 都 有 一 个 对 应 的 标签 y; CO 或 1)。 
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一 个 模型 需要 预测 样本 是 0 或 者 1 的 概率 ， 用 gnis Gin KER. AN iat pi =1, HI 














以 把 它 


们 改写 为 训 和 1 一 箔 。 前 者 可 以 代表 一 个 类 别 的 概率 ， 后 者 可 以 代表 另外 一 个 类 别 的 概率 。 因 此 ， 






























































一 个 二 分 类 的 神经 网 络 可 以 只 有 一 个 输出 ， 且 最 后 一 层 使 用 sigmoid. HEA UIE, SX 
it 
Ew 2. (v log 9; + (1 — yi)log(1 一 i)) (1.15) 














(1 — yi)log(1— 9) 中 ， 对 于 每 一 个 新 样本 ， 两 个 表达 式 的 值 只 有 一 个 不 为 零 。 若 Vi, yi = 
AC UREA 0. 
在 多 类 别 分 类 任务 中 ， 每 一 个 样本 zx; 都 会 被 分 到 3 个 或 者 更 多 的 类 别 中 的 一 个 。 这 






























































fi: 则 


lys 


个 模型 需 预测 每 一 个 类 别 的 概率 (Gir, dos dimh PERM 23832 Gy = 1. 在 























这 里 ， 每 一 个 样本 的 目标 写作 c;， 它 的 值 域 为 [1, M]。 同 时 ， 它 也 可 以 被 转换 成 为 一 个 独 热 
































yi = [yis yiz ,Yi,M]， 其 中 只 有 yu = 1， 其 他 的 都 是 0。 我 们 现在 就 可 以 把 多 类 别 分 
SG UAE Bk: 























1 N M 1 N 
L= 2 23930 log Hig 二 一 六 DO (0 +++ + Yai 108 Gi, 十 … 十 0 
ISI 


i=1 j=1 


1 N 
Te log ic; 
vey 


L 范式 


向 量 ae 的 p- 范 式 用 来 测量 其 数值 幅度 大 小 : 如 果 一 个 向 量 的 值 更 大 ， 它 的 六 范式 也 
个 更 大 的 值 。p 是 一 个 大 于 或 等 于 1 的 值 ， 产 范式 定义 为 


ine 1/p 
[ello = (E «| 










































































i=l 


N 
all> = » lel? 
i=1 


i.e. 


























p- 范 式 在 深度 学 习 中 往往 用 来 测量 两 个 向 量 的 差别 大 小 ， 写 作 Lp WESA (1.18) 一 样 ，] 


























ul 











中 yy 为 目标 值 向 量 ，$ 为 预测 值 向 量 。 
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热 编码 











类 的 交 


(1.16) 


会 有 一 





(1.17) 





AM 


1.6 优化 





N 
Ly = lly — ĝl = V ^ lv — $i? (1.18) 


i=l 
WARE 


均 方 误差 (Mean Squared Error, MSE) 是 由 公式 (1.19) 所 定义 的 Lo 范式 的 平均 值 。 均 方 误 



















































































差 可 以 在 网 络 输出 是 连续 值 的 回归 问题 中 使 用 。 比 如 说 ， 两 个 不 同 图 像 在 像素 上 的 区 别 就 可 以 用 
MSE 来 测量 
Bd 2 gu - o? (1.19) 
CN UT Na Vi . 























其 中 是 样本 数据 的 大 小 ，y Lg 239073 H PrE e TERT TRU FER 





s 
Isi 








平均 绝对 误差 


与 均 方 误差 类 似 ， 平 均 绝对 误差 (Mean Absolute Error, MAE) 也 可 以 被 用 来 做 回归 任务 ， 它 
被 定义 为 £4 范式 的 平均 。 




















1 N 
= y 2 ln- 9i (1.20) 
wl 


























均 方 误差 和 平均 绝对 误差 都 可 衡量 y Ag 的 误差 ， 用 以 优化 网 络 模型 。 其 中 ， 均 方 误差 提 
供 了 更 好 的 数学 性 质 ， 从 而 让 我 们 能 更 简便 地 计算 梯度 下 降 所 需要 的 偏 导 数 。 而 在 平均 绝对 误差 
H, Xy = $0 时 ， 我 们 注意 到 上 面 公式 中 的 绝对 值 项 无 法 求 导 ， 这 对 平均 绝对 误差 来 说 是 一 个 
EC 法 解决 NEU Ay Sy; FG; 的 绝对 差 大 于 1 时 ， 均 方 误 差 相 对 平均 绝对 误差 
来 说 误差 值 更 大 。 显 然 地 ， 当 (yi — 40) > DE (wi— 907 > lyi — pilo 































































































1.6 ”优化 


在 这 一 小 节 里 ， 我 们 将 描述 深度 神经 网 络 的 优化 ， 即 深度 神经 网 络 参 数 训练 。 本 节 包 含 了 反 
向 传播 算法 、 梯 度 下 降 、 随 机 梯度 下 降 和 超 参 数 的 选择 等 内 容 。 

































































1.6.1 梯度 下 降 和 误差 的 反 向 传播 

如 果 我 们 有 一 个 神经 网 络 和 一 个 损失 函数 ,那么 对 于 这 个 网 络 的 训练 的 意义 是 通过 学 习 它 的 
0 使 得 损失 值 C 最 小 化 。 最 暴力 的 方法 是 通过 寻找 一 组 参数 9， 使 它 满足 ygL = 0， 以 找到 损失 
值 的 最 小 值 。 但 这 种 方法 在 实际 中 很 难 实现 ， 因 为 通常 深度 神经 网 络 参数 很 多 、 非 常 复杂 。 所 以 
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我 们 需要 考虑 一 种 叫 作 梯 度 下 降 (Gradient Descent) 的 方法 ， 它 是 通过 逐步 优化 来 一 步 一 步 地 寻 
找 更 好 的 参数 来 降低 损失 值 的 。 

图 1.9 展示 了 两 个 梯度 下 降 的 例子 。 梯 度 下 降 的 学 习 过 程 从 一 个 随机 指定 的 参数 开始 ， 其 损 
失 值 C 随 参 数 的 更 新 而 逐步 下 降 ， 其 过 程 如 箭头 所 示 。 具 体 来 说 ， 在 神经 网 络 中 ， 参 数 通过 偏 导 
数 95 被 逐步 优化 ， 优 化 过 程 为 6 := 0 — a25, KPa 为 学 习 率 ， 用 以 控制 步 长 幅度 。 可 见 ， 梯 
度 下 降 法 的 关键 是 计算 出 偏 导数 2 。 


起 始 位 置 L 

















































































































局 部 最 小 点 


局 部 最 小 点 
全 局 最 小 点 全 局 最 小 点 





O "WO ME 

19 梯度 下 降 的 示例 ; 在 左 图 中 , 我 们 有 一 个 可 以 训练 的 参数 9 — w; 在 右 图 中 ， 我 们 有 两 个 
以 训练 的 参数 9 = [un wz]。 在 梯度 下 降 里 ， 整 个 学 习 过 程 的 初始 化 参数 是 随机 的 。 在 
一 步 对 参数 调整 之 后 ， 损 失 L 会 慢 慢 地 减少 ， 但 无 法 保证 最 后 能 找到 全 局 最 小 的 损失 
值 ， 在 大 多 数 情况 下 ， 我 们 能 找到 的 都 是 局 部 最 小 值 
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aa 












































反 向 传播 ‘Back-Propagation) (LeCun et al., 2015; Rumelhart et al., 1986) 是 一 种 计算 神经 网 络 
偏 导数 SE 的 方法 。 为 了 使 得 表示 对 的 计算 更 加 清晰 ， 这 种 方法 引入 一 个 中 间 量 6 = 25, 
用 来 表示 损失 函数 C 对 于 神经 网 络 输出 z 的 偏 导 数 。 因 此 ， 这 种 方法 可 以 通过 中 间 量 6 来 计算 
损失 函数 C 对 于 每 个 参数 的 偏 导 数 ， 并 最 终 共 同 组 成 25 。 
aie ele 1,2,… , 卫 ， 其 中 输出 层 的 序号 为 工 。 对 于 每 个 网 络 层 ， 我 们 有 输出 zl, 






























































































































































中 间 值 = 25 AHR a! = fle!) 《其 中 为 激活 函数 ) FEE MERSIN 
M sigmoid WORRN MNF: DAIZ = Wiat eM a! = f) = pha 和 








£-i|y-a^|2. 可 以 得 te oa 9a. = fi(z!) = f(z')\(1— f(z") = 
al(L 一 a!)， 以 及 损失 函数 对 于 激活 值 输出 的 偏 导数 LS = (a^ 一 y)。 然 后 ， 为 了 计算 损失 函数 
对 于 输出 层 的 偏 导数 ， 可 以 使 用 链 式 法 则 ， 有 具体 如 下 : 
从 输出 层 开始 向 后 传播 误差 ， 先 计算 输出 层 的 中 间 量 : 
© ôl = OF = = (aL — y) © (at (1— a!)) 
然后 计算 损失 函数 对 于 后 一 层 输 出 的 偏 导 数 ， 如 (1 = 1, 2,--- ,L— 12: 
e BA zH = wie + ot, gp oe — wi, g oe = al(1— al) 
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1.6 优化 








A sl — OL _ OL Oz't! Oa! 
"那么 5 = Oz! Ozitl ða! Oz! 


= (W'*!)78'*! © (a'(1 — a!) 

































































































































































从 输出 层 开 始 向 后 传播 ， 计 算出 所 有 层 的 中 间 值 6! 后 ， 反 向 传播 算法 的 第 二 步 是 在 中 间 值 
6! 的 基础 上 计算 损失 函数 对 于 每 层 参数 OE, 和 SE 的 偏 导数 。 

dB zl — Wal! +b, SIG Pe = al! Rm = 1 

MA apr $5 Sin — é'(al-1)*, Fe = 5 ee mi 

最 后 ， 我 们 用 OS, 和 路 及 梯度 下 降 更 新 W! 和 以: 

°W := W! — adt, 

° b := b — a Sh 

可 见 ， 有 了 偏 导 数 中 = 2E, 25] BRAN AL MERRE BER SABE TIAN, BIRA 
到 了 损失 函数 中 的 一 个 最 小 值 ， 如 图 1.9 所 示 。 在 实践 中 ， 我 们 最 终 得 到 的 最 小 值 往往 是 一 个 局 
部 最 小 值 ， 而 不 是 全 局 最 小 值 。 但 是 ， 因 为 深度 神经 网 络 往往 可 以 提供 一 个 很 强 的 表示 能 力 ， 这 





































































































些 局 部 最 小 值 通常 会 很 接近 全 局 最 小 值 (Goodfellow et al., 2016)， 使 得 损失 值 足 够 小 。 
这 里 额外 介绍 sigmoid 的 问题 ， 当 使 用 sigmoid MY, 22 = a'(1— a), ? a 接近 于 0 或 者 1 
Wr, 9e. 会 非常 小 ， 从 而 导致 8! 非常 小 。 在 网 络 很 深 的 情况 下 ， 反 向 传播 时 6 会 越 来 越 小 ， 出 现 



































Oz 
梯度 消失 (Vanishing Gradient) 问题 ， 

















导致 模型 靠近 输入 部 分 的 参数 很 难 被 更 新 ， 模 型 无 法 训练 




























































































































































































起 来 。 而 ReLU 的 227 在 a 大 于 0 时 衡 为 1， 就 不 会 有 这 个 问题 ， 这 也 是 现在 的 深度 模型 往往 在 
隐藏 层 中 使 用 ReLU 而 不 再 使 用 sigmoid 的 原因 。 

在 梯度 下 降 中 ， 如 果 数 据 集 的 大 小 ( 即 数据 样本 的 数量 ) N 较 大 ， 则 在 每 个 迭代 中 计算 损失 
BA C 的 计算 开销 可 能 会 较 高 。 拿 之 前 的 均 方 误差 举例 ， 我 们 可 以 把 上 式 展开 成 

£- iy - ad = 13 f - a? (1.21) 
一 了 y 2775 2 Yi à E 

在 实践 中 ， 数 据 集 很 有 可 能 会 很 大 ， 梯 度 下 降 因 需要 计算 C 而 变 得 十 分 低 效 。 随 机 梯度 下 降 
应 运 而 生 ， 其 他 对 于 L 的 计算 只 包含 少量 的 数据 样本 。 
1.6.2 ”随机 梯度 下 降 和 自 适应 学 习 率 

与 其 是 在 每 个 迭代 中 对 全 部 训练 数据 计算 损失 函数 L， 随 机 梯度 下 降 (Stochastic Gradi- 


ent Descent, SGD) (Bottou et al., 2007) 计算 损失 值 
































时 随机 选取 一 小 部 分 的 训练 样本 。 这 些小 























样本 被 称 为 小 批量 (Mini-batch)， 而 在 这 些小 批量 世 











lL 体 大 小 被 称 为 批 大 小 (Batch Size) B。 然 











后 ， 我 们 就 可 以 ) 











Jt) BAB<NG 











EBAR (1.21)， 得 到 公式 (1.22)， 以 改进 计算 L 的 


BUR: 


1 


L= gily— 


al || = 2 


LS (y; - ab)? 


B 
(1.22) 


i=1 
































随机 梯度 下 降 的 训练 过 程 请 见 算法 1.1。 如 果 参 数 在 算法 1.1 中 更 新 了 足够 多 的 次 数 ， 那 么 
小 批量 可 以 履 盖 整个 训练 集 。 








x 





算法 1.1 随机 梯度 下 降 的 训练 过 程 
Input: 参数 9， 学 习 率 a， 训 练 步 数 /迭代 次 数 5 
1: for; = 0 to S do 
2: 计算 一 个 小 批量 的 C 

3: ”通过 反 向 传播 计算 Ss 

4 V0 c —a- 25; 

5 04+ 04+ V9 更 新 参数 

6: end for 

7: return 0; 返回 训练 好 的 参数 






























































学 习 率 (Learning Rate) 控制 了 随机 梯度 下 降 中 每 次 更 新 的 步 长 。 如 果 学 习 率 过 大 ， 随 机 梯度 
下 降 可 能 无 法 找到 最 小 值 ， 如 图 1.10 所 示 。 另 一 方面 ， 如 果 学 习 率 过 小 ， 随 机 梯度 下 降 的 收敛 速 
率 将 会 变 得 十 分 缓慢 。 如 何 决定 学 习 率 是 一 个 很 困难 的 过 程 。 为 了 解决 这 个 问题 ， 需 要 使 用 自 适 
应 学 习 率 算法 ， 如 Adam (Kingma et al., 2014). RMSProp (Tieleman et al., 2017) 和 Adagrad (Duchi 
et al., 2011) 等 。 其 作用 为 通过 自动 、 自 适应 的 方法 来 调整 学 习 率 ， 从 而 加 速 训练 算法 的 收敛 速度 。 
这 些 算 法 的 原理 在 于 ， 当 参数 收 到 了 一 个 较 小 的 梯度 时 ， 算 法 会 转 到 一 个 更 大 的 步 长 ， 反 之， 如 
果 梯 度 过 大 ， 算 法 就 会 给 出 一 个 较 小 的 步 长 。 其 中 ，Adam 是 最 常见 的 自 适 应 学 习 率 算法 。 与 其 
直接 用 梯度 更 新 参数 ，Adam 首先 会 计算 梯度 的 滑动 平均 和 二 阶 动量 。 然后， 如 算法 1.2 Aras, 这 
些 新 计算 的 数值 会 被 用 来 更 新 我 们 想 要 训练 的 参数 。 算 法 1.2 中 的 Bi 和 Bo 为 梯度 的 遗忘 因子 ， 
或 者 分 别 是 其 动量 和 二 阶 动量 。 在 默认 设置 下 ，B1 和 Bo 的 值 分 别 是 0.9 和 0.999 (Kingma et al., 
2014)。 















































































































































































































































图 1.10 一 个 很 大 的 学 习 率 可 能 会 加 速 训练 过 程 ， 但 会 导致 模型 很 难 训练 至 一 个 理想 的 参数 。 如 
左 图 所 示 ， 因 为 其 学 习 率 较 右 图 更 大 ， 其 损失 函数 有 可 能 在 参数 更 新 后 增加 ， 因 此 更 难 
以 接近 最 小 值 。 同 样 地 ， 右 图 的 优化 有 一 个 更 小 的 学 习 率 ， 能 更 好 地 找到 低 点 ， 但 训练 
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1.6 优化 





算法 1.2 Adam 优化 器 的 训练 过 程 

Input: 参数 0， 学 习 率 w， 训 练 步 数 /迭代 次 数 5，PB1 = 0.9, 83 — 0.999, e= 1078 
1: mo & 0; 初始 化 一 阶 动量 
2: vo — 0; 初始 化 二 阶 动量 
3: fort = 1 to 5 do 
25: 用 一 个 随机 的 小 批 量 计 算 梯度 

m, — Bm, a (1— f): $ (963 更 新 一 阶 动量 

vi — b2- vi 1 + (1 — b2): ($ c)? ; 更 新 二 阶 动量 

My — i 计算 一 rz s TE IP Mg 

4 c ;计算 二 阶 动量 的 滑动 平均 

VO — 一 Q Vere 

1: 0—0-- v0; 更 新 参数 


11: end for 
12: return 6; 返回 训练 好 的 参数 
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16.3 HSARA 


在 深度 学 习 中 ， 超 参数 (Hyper-Parameters) 指 和 设置 相关 的 参数 ， 比 如 层 的 数量 ， 以 及 训练 
过 程 的 设置 参数 ， 如 更 新 步 的 数量 、 批 大 小 和 学 习 率 。 这 些 设 置 参数 会 在 很 大 程度 上 影响 模型 的 
表现 ， 因 此 它们 是 组 成 一 个 理想 模型 的 重要 因素 。 

为 了 衡量 不 同 超 参数 对 于 模型 表现 的 影响 ， 我 们 通常 将 数据 集 划 分 为 训练 集 (Training Set), 
验证 集 (Validation Set) 和 测试 集 (Testing Set) 。 不 同 的 超 参数 设置 分 别 用 训练 集训 练 出 不 同 的 
模型 ， 然 后 在 验证 集 上 进行 性 能 评估 。 最 后 ， 我 们 用 在 验证 集 上 表现 最 好 的 超 参数 在 测试 集 上 做 




































































































































































最 后 的 性 能 评估 。 在 这 里 需要 注意 的 是 ， 我 们 不 能 用 测试 集 调整 超 参数 ， 不 然 就 是 已 知 考卷 试题 
的 作 浆 行为 。 
交叉 验证 
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在 一 个 小 数据 集 上 ， 把 数据 集 分 为 训练 集 、 验 证 集 和 测试 集 的 做 法 会 浪费 宝贵 的 数据 。 有 具体 
来 说 ， 如 果 训 练 集 分 得 过 小 ， 可 能 会 因为 训练 数据 不 足 而 让 训练 出 来 的 模型 表现 不 佳 。 从 另 一 方 
下 来 说 ， 如 果 训 练 集 分 得 过 多 、 验 证 集 过 小 ， 模 型 也 不 能 在 一 个 小 数据 集 上 被 充分 地 评估 。 为 了 
明 决 这 个 问题 ， 可 使 用 交叉 验证 (Cross Validation)， 所 有 数据 都 能 被 用 来 训练 模型 ， 不 再 需要 验 
证 集 ， 以 充分 利用 数据 。 

在 一 个 大 折 交 叉 验 证 策略 中 ， 一 个 数据 集 将 会 被 分 成 天 个 互相 不 重复 的 子 集 ， 并 且 每 个 子 集 
包含 同样 数量 的 数据 。 我 们 将 重复 训练 模型 上 次 ， 其 中 每 次 训练 时 ， 一 个 子 集 将 会 被 选 为 测试 集 ， 
而 剩 下 的 数据 将 会 被 用 来 训练 模型 。 最 后 用 来 评估 的 结果 则 是 : 有 次 训练 后 ， 模 型 输出 性 能 《〈 如 
佳 确 度 ) 的 平均 值 。 图 1.11 展示 了 一 个 四 折 交 义 验 证 示例 。 
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图 1.11 四 折 交 叉 验 证 ( Four-Fold Cross-Validation ) 示例 。 数 据 集 被 划分 为 四 
的 ， 每 一 行为 一 个 子 集 )。 在 每 次 训练 中 ， 而 加 框 的 子 集 被 当 作 测试 数据 ， 其 他 被 当 
训练 数据 。 最 后 模型 评估 的 结果 则 是 四 次 训练 预测 的 平均 
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17 EM 


我 们 把 那些 用 来 使 得 一 个 模型 在 训练 集 和 测试 集 都 有 很 好 效果 的 方法 叫 作 正则 化 办 法 。 本 贡 
主要 介绍 过 拟 合 和 一 些 不 同 的 正则 化 方法 ， 如 权重 衰减 、Dropout 和 批 标准 化 。 
























































1.7.1 THE 


一 个 机 器 学 习 的 模型 为 了 减少 训练 集 上 的 损失 而 进行 的 优化 ,并 不 能 保证 它 在 测试 集 上 的 效 
果 良 好 。 一 个 被 过 度 优化 了 的 模型 会 有 很 小 的 训练 集 误差 .但 有 很 大 的 测试 集 误差 ， 这 种 现象 为 
过 拟 合 (Overfitting). 
图 1.12 中 ， 虚 线 代 表 的 多 项 式 模型 就 存在 过 拟 合 的 问题 。 这 个 模型 在 训练 集 上 过 度 一 致 ， 而 
在 测试 集 上 就 不 太 符 合 。 当 使 用 一 个 这 样 过 拟 合 的 模型 在 现实 应 用 中 应 用 新 的 数据 时 ， 是 不 可 靠 
的 。 相 反 地 ， 由 实 线 代表 的 线性 模型 虽 有 很 少 的 参数 ， 但 是 却 更 符合 测试 数据 的 趋势 。 
和 过 拟 合 相 对 的 是 欠 拟 合 (Underfitting)， 即 模型 在 训练 集 和 测试 集 上 都 有 了 很 大 的 误差 。 但 
是 在 现实 中 ， 欠 拟 合 很 容易 解决 ， 比 如 可 以 用 一 个 更 大 的 模型 来 解决 《更 多 网 络 层 及 更 多 的 参数 
等 )， 而 解决 过 拟 合 会 更 加 国手 。 最 简单 的 一 个 方法 就 是 使 用 更 多 的 训练 数据 ， 但 这 不 是 一 个 万 
能 药 ， 因 为 数据 的 获取 和 标记 都 需要 代价 。 











































































































































































































































































































17.2 ”权重 衰减 


BRM (Weight Decay) 是 一 种 简单 却 有 效 的 用 于 解决 过 拟 合 的 正则 化 方法 。 它 用 了 一 个 
正则 项 作为 惩戒 ， 使 得 9 有 更 小 的 绝对 值 。 以 图 1.12 为 例 ， 如 果 多 项 式 模型 从 c Bh 的 参数 有 
更 小 的 绝对 值 ， 那 这 个 模型 的 上 下 摇摆 幅度 就 会 减 小 ， 能 更 好 地 拟 合 数据 。 用 参数 范式 作为 惩戒 
的 损失 函数 的 定义 为 























































































































Ltotal 一 L(y, 9) + AN(0) (1.23) 


1.7 正则 化 

















图 1.12 一 个 过 拟 合 的 例子 : 深 色 点 代表 了 训练 集 ， 浅 色 点 代表 了 测试 集 。 虽 然 由 实 线 代表 的 线 
性 模型 在 训练 集 上 有 一 个 更 大 的 损失 值 ， 但 实 线 的 模型 比 虚 线 代表 的 多 项 式 模型 在 测试 
集 上 误差 更 小 。 我 们 可 以 说 这 个 多 项 式 模型 对 训练 集 过 拟 合 了 








































































































其 中 Ly, g) 是 从 使 用 目标 y 和 预测 站 来 计算 的 损失 函数 ，0 是 模型 的 参数 范式 惩戒 函数 ， 
A 是 有 比较 小 的 值 ， 以 控制 参数 范式 惩戒 函数 的 幅 

两 种 最 常见 的 参数 范式 惩戒 函数 是 Ci; = ||W || 和 Lo = 上 W222。 深度 神经 网 络 的 参数 的 绝对 
值 通常 小 于 1， 所 以 Ci 会 比 Lo 输出 一 个 更 大 的 惩戒 ， 因 为 当 |uwl < 工时 ，|w| >w. RI. L 
函数 用 来 作为 参数 范式 惩戒 函数 时 ， 会 让 参数 偏向 于 更 小 的 值 甚至 为 0。 这 是 模型 隐 性 地 选择 特 
正 的 方法 ， 把 那些 不 重要 特征 的 相对 应 参数 设 为 一 个 很 小 的 值 或 者 是 0。 

我 们 可 以 进一步 通过 几何 方法 来 看 看 Ci; 和 Lo 的 区 别 。 由 图 1.13 所 示 的 坐标 系 里 ， 有 两 个 
模型 参数 wi, wee w? + We? = r? 是 一 个 半径 为 7 的 圆 CA 1.13 ALD 而 |wi| 十 |wz| =r 是 一 个 对 
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图 1.13 AB: 原始 损失 值 的 轮廓 线 ( 红色 ) 还 有 £o 损失 值 ( 蓝 色 )。 右 图 : 原始 损失 值 的 轮廓 
& (红色 ) WAL 损失 值 (RE) 从 红色 轮廓 线 和 蓝 色 轮 廓 线 交 接 的 地 方 可 见 ，C 
有 可 能 使 得 参数 为 0 




























































































角 线 长 为 27 的 正方 形 (图 1.13 右 )。 它 们 两 个 都 被 蓝 色 轮廓 线 表 示 。 在 图 中 ， 红 色 的 线 代表 的 是 




















初始 的 损失 C(y, 分 。 初 始 损失 和 参数 范式 惩戒 的 交点 用 














数 为 0， 两 个 轮廓 的 交接 位 于 正方 形 的 顶点 上 。 


1.7.3 Dropout 









































“又 ”标记 了 出 来 。Ci 更 有 可 能 使 得 参 

















Dropout 是 另 一 个 很 受 欢 迎 的 用 来 解决 过 拟 合 问题 方法 (Hinton et al., 2012; Srivastava et al., 

















2014)。 当 神经 元 数量 非常 多 时 ， 网 络 会 出 现 共 适 应 的 问题 ， 从 而 会 有 过 拟 合 的 现象 。 神 经 元 的 共 









































适应 指 神经 元 之 间 会 互相 依赖 。 故 而 ， 造 成 一 旦 有 














个 神经 元 失效 了 ， 就 有 可 能 所 












































经 元 都 会 失效 ， 以 至 于 整个 网 络 竣 痪 的 局 面 。 为 了 避免 参数 过 多 导致 的 共 适 应 ，Dropout 在 训练 
的 过 程 中 ， 将 隐藏 层 的 输出 按 比例 随机 设 为 0。 就 像 图 1.14 中 所 示 一 样 ， 层 会 有 几 个 神经 元 














随机 地 失去 和 其 他 层 的 连接 。 


























依赖 它 的 神 












































图 1.14 ”训练 过 程 中 对 一 个 神经 网 络 使 



















































































连接 的 神经 元 会 被 更 新 。 所 以 Dropout 法 其 实 是 在 训 


























et al., 2012)。 在 测试 过 程 当中 ，Dropout 就 不 能 被 使 月 








Dropout， 让 它 的 某 些 连 









































练 很 多 不 同 的 小 的 网 络 ， 














在 反 向 传播 当中 , 如 果 有 的 输出 a! 为 0, 那么 其 相对 应 的 那 一 层 的 偏 导数 9 也 是 0。 只 有 还 有 
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日 了 ， 没 有 输出 会 被 设 为 0。 








参数 (Hinton 





这 就 意味 着 是 


所 有 网 络 一 起 来 预测 最 终 的 结果 。 集 成 学 习 (Ensemble Learning) 就 是 这 样 一 个 例子 (Hara et al., 








2016)， 它 用 很 多 模型 学 会 做 同一 个 任务 ， 然 后 测试 的 时 候 使 月 
性 。 关 于 Dropout 的 理论 证 明 在 原始 的 论文 里 是 没有 的 
















































































结果 ， 比 如 说 (Hara et al., 2016) 就 证 明了 它 在 集成 学 






































它 在 贝 叶 斯 里 的 有 效 性 。 


1.7.4” 批 标准 化 


SEE (Batch Normalization) (Ioffe et al., 2015) 层 标准 化 了 网 络 的 输 H 
平均 值 变 为 0, 方差 变 为 1。 这 样 做 的 目的 是 提高 训练 的 稳定 性 。 在 训练 的 过 程 ! 
用 一 个 移动 平均 的 办 法 来 计算 每 一 批 输入 的 平均 值 和 方差 ， 以 佑 i 





























20 

















日 所 有 模型 输出 的 结果 来 提高 准确 








(Hinton et al., 2012), 但 是 近期 有 了 些 新 的 
习 里 的 有 效 性 ， 以 及 (Gal et al., 2016) 证 明了 




















上 ， 也 就 是 让 输出 的 








十 整个 训练 旨 











, 





批 标准 化 层 会 








vir 


的 平均 值 和 方差 。 





1.7 正则 化 





每 一 批 输入 的 平均 值 和 方差 会 被 用 来 标准 化 这 一 批 输入 。 在 模型 测试 的 过 程 当 中 ， 我 们 会 保持 移 
动 平 均值 和 方差 不 变 来 标准 化 输入 。 

除了 提高 性 能 和 稳定 性 ， 批 标准 化 也 可 以 提升 正则 化 的 作用 。 和 Dropout 里 对 隐藏 层 加 一 个 
不 确定 性 一 样 ， 移 动 平均 值 和 方差 也 同样 地 引入 了 一 定 的 随机 性 ， 因 为 在 每 一 个 回合 当中 ， 它 都 
是 根据 具体 的 那 一 批 的 随机 样本 来 决定 更 新 的 。 因 此 ， 在 训练 中 有 了 这 样 一 个 变化 的 神经 网 络 会 
变 得 更 加 鲁 棒 。 



























































































































































1.7.5 ”其 他 缓和 过 拟 合 的 方法 


我 们 有 很 多 其 他 方法 来 预防 过 拟 合 ， 比 如 说 ， 早 停 法 〈Early Stopping) 或 者 数据 增强 (Data 
Augmentation )。 早 停 法 会 当 网 络 在 满足 一 定 的 实际 条 件 时 停止 训练 ， 比 如 说 在 验证 集 上 有 了 足够 
高 的 精确 度 。 图 1.16 描述 了 损失 在 训练 过 程 可 能 会 慢 慢 增加 ， 也 就 是 过 拟 合 的 开始 ,不 过 我 们 可 


以 用 早 停 法 在 过 拟 合 开 始 前 的 那个 点 停止 训练 。 


图 1.15 一 个 图 像 数据 增强 的 例子 。 左 上 角 的 是 原 图 ， 其 他 图 片 是 通过 随机 的 反 转 、 平 移 、 缩 近 
等 运算 得 到 的 




































































































































数据 增强 即 增加 现 有 训练 数据 的 大 小 ， 如 运用 反 转 、 旋 转 、 移 动 和 放 缩 等 运算 合理 生成 数据 ， 
以 减少 过 拟 合 ， 从 而 提高 网 络 性 能 (Dong et al., 2017; He et al., 2016; Howard et al., 2017; Simonyan 
et al., 2015)。 和 图 像 数 据 一 样 ， 音 频数 据 也 一 样 可 以 通过 增加 噪声 或 者 其 他 改变 来 增强 。 最 近 研 
究 表明 ， 通 过 改变 音频 速度 来 增强 ， 可 以 提高 语音 识别 算法 的 性 能 (Ko et al., 2015). 

但 是 我 们 不 能 把 同样 的 方法 运用 在 字符 信息 上 面 ， 因 为 字符 的 大 小 和 排序 有 它 特定 的 意思 。 
比如 说 ,“ 人 类 喜欢 狗 狗 ”和 “ 狗 狗 喜欢 人 类 ”的 意思 是 不 一 样 的 。 一 个 可 以 增强 字符 数据 的 现实 
方法 是 用 规定 的 同义词 来 复述 句子 (Zhang et al., 201$)， 也 可 以 不 增强 原始 数据 ,文献 (Reed et al., 
2016) 利用 两 个 随机 句子 的 向 量 表征 的 内 插 来 进行 数据 增强 。 
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1.8 


一 种 ， 


构 的 一 


可 能 是 CNN 最 有 识别 度 的 一 个 特征 。 
的 一 样 
责 的 处 到 


。 和 图 


1.16 ”过 拟 合 的 训练 E 


STA THE 


卷 积 神经 网 络 (Convolutional Neural Network, CNN) (LeCun et al., 1989) 是 前 向 


> 







开始 过 拟 合 


训练 损失 
> 批量 
我 们 可 以 用 早 停 法 来 让 训练 过 程 在 开 





O 














线 。 























笃 网 络 


始 过 拟 合 之 时 就 停止 











它 在 很 多 不 同 的 领域 9 
2012; Simonyan et al., 2015)、 

Zhang et al., 2019a) 和 强化 学 习 (James et al., 2019; Rusu et al., 2016). IRE GAA 
机 器 学 习 系 统 都 是 基于 CNN 之 上 的 。 本 节 介 绍 两 种 网 络 层 : 卷 积 层 和 池 化 层 ， 








部 分 。 


1.17 所 示 


























时 序 预测 (van den Oord et al., 2016)、 EL ATE F A3 

















经 网 络 的 


有 都 有 很 大 的 作用 ， 如 计算 机 视觉 (He et al., 2016; Krizhevsky et al., 
E (Yin et al., 2017; 




















其 主要 思想 来 自 对 人 脑 ' 
使 用 了 四 个 不 同 的 神经 元 来 处 理 同样 


















































， 卷 积 输 昌 








并 排 处 理 
的 输入 图 


FE 现实 世界 落地 的 
它们 都 是 CNN 结 


视觉 输入 的 
像 区 间 。 不 





























任务 不 一 样 ， 如 处 理 边缘 、 颜 色 和 角度 等 任务 。 





经 元 可 能 负责 














是 和 局 


于 局 部 
知道 卷 


在 





部 有 连接 ， 并 不 是 和 
的 输出 可 
JZ, 它 需 要 的 参数 会 少 得 多 ,能 


一 个 卷 积 层 




















前 一 层 的 所 有 单元 都 有 连接 。 卷 积 层 可 以 被 层 层 地 羞 力 
以 作为 另外 一 个 卷 积 层 的 输入 。 卷 积 层 最 大 的 优点 是 ， 
快 地 被 训练 出 来 。 图 1.17 展示 





















































在 卷 积 














层 的 神经 元 只 
0 在 一 起 ， 也 就 
相对 于 全 连接 











R 了 在 卷 积 层 的 每 一 个 神经 元 有 关 
































输入 的 所 有 à 














通道 的 信息 。 


如 果 说 一 个 RGB 











积 核 运 算 





之 后 的 


局 部 区 域 的 所 有 RGB 通道 。 








> 























卷 积 层 里 的 卷 积 








输入 是 
若干 小 
D 
的 数值 























高 / 宽 为 W A 








也 被 很 好 地 考虑 
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的 向 量 
区 间 ， 然 后 每 个 4 
E 离 。 若 步 长 为 2(S =2), RRMA 





图 片 是 输入 ， 那 么 一 个 在 卷 积 层 的 4 


4H. 











经 元 就 能 














种 各 样 


H 








层 网 络 的 





EH T ASTANA A RAR GEE 要 的 特征 。 当 
a, FPA RAE 
\ 区 间 依 次 和 卷 积 核 进行 点 乘 讨 
R 每 个 距离 为 2 的 小 区 间 进 行 点 乘 运算 。 勾 


BEANE, ASA whi EWAN (Zero Padding). 48i 


" 




















4 运算 

















市 


















































一 个 大 小 为 下 的 卷 积 核 ， 卷 积 运算 将 输入 的 向 量 切 分 为 
| 算 。 其 中 步 长 5 规定 了 每 个 





区 间 之 间 的 
[ 果 要 确保 边缘 








填充 的 大 小 为 


1.8 卷 积 神经 网 络 



































Eo 自如 输入 是 一 个 









































只 层 偷 出 也 有 不 同 通道 。 和 全 














ze, mm 














区 域 所 连接 ， 而 不 是 和 所 











有 输入 都 有 连接 。 图 中 展示 了 卷 积 









































Me 
































P， 则 一 个 卷 积 层 的 输出 层 大 小 就 可 以 





公式 (1.24) 来 进行 计算 。 











(1.24) 
































8 通道 的 数量 ) 和 卷 积 核 的 数量 是 一 致 和 














LATE AS T ae ARIS 
、 一 个 大 小 为 3x3x3 (高 
x 宽 x 输入 通道 ) 的 卷 积 核 ， 步 长 9 = 1， 边 缘 填 充 P= 0。 根 据 公式 (1.24)， 和 输出 值 的 高 / 宽 为 
因为 只 有 一 个 卷 积 核 )。 为 了 计算 
片 和 卷 积 核 的 点 乘 ， 得 到 三 个 值 ， 这 三 个 值 的 




















A M 


图 1.18 中 ， 有 一 个 大 小 为 4x4 (高 x 宽 ) 的 RBG 图 

















(4 一 3 十 0)/1 十 1 = 2。 输 出 的 深度 ( 卷 积 核 的 通道 数 ) 是 1 ( 
在 每 一 个 通道 左上 角 的 天 











数值 ， 首 先 计 算 输 入 图 


























到 的 输出 可 以 通过 一 层 激活 函数 来 引入 非 线性 。 
日 邻 像 素 类 似 的 性 质 来 进行 下 取样 。 



































们 认为 ， 合 适 的 像素 只 留 取 一 个 区 
下 取样 ， 会 在 建 模 当 中 有 很 多 益处 。 通 常 有 两 种 池 化 方法 来 减少 数据 
， 在 一 个 4x4 的 输入 上 和 在 步 长 是 2 的 情况 下 ， 
也 化 的 例子 。 池 化 层 可 以 很 明显 地 减少 输出 大 小 ， 提 高 之 后 层 的 计算 
8 被 传递 给 全 连接 层 之 前 ， 使 用 池 



























































: 最 大 值 池 化 和 平均 值 ; 
演示 了 最 大 值 池 化 和 平均 值 } 
在 一 个 卷 积 层 以 后 会 有 数 L 
上 大 小 会 减 小 计算 

















































































































1.20 展示 了 一 个 有 两 个 
































个 最 大 值 池 化 层 和 一 个 全 连接 层 的 网 络 。 这 上 












































和 前 向 神经 网 络 不 同 的 是 ，CNN fi 











函数 可 以 同样 地 用 在 


























了 参数 共享 的 概念 。 在 模型 的 不 同 部 分 使 用 参数 共享 ， 
j 来 处 理 不 同 的 数据 形式 〈 不 同 
面 的 元 素 wi; 代表 着 前 一 层 


























让 整个 模型 更 加 高 效 


大 小 或 者 长 度 )。 回 想 一 下 ， 在 一 个 全 连接 层 中 有 一 个 权重 和 矩阵 ， 昌 











《更 少 的 参数 和 内 存 需求 )， 然 后 它 也 可 以 





















































经 元 和 当前 层 第 j HATE. (AA 


个 卷 积 层 里 ， 卷 积 核 其 实 就 是 权重 ， 它 们 在 运算 输 
对 参数 的 需求 ， 这 也 就 是 
的 参数 更 少 。 






























































用 的 。 对 卷 积 核 的 习 
上 大 小 类 似 的 情况 下 ， 卷 积 








] 就 减少 了 在 卷 积 网 络 
层 比 全 连接 层 所 需要 














为 什么 在 输入 和 输 旨 
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图 像 卷 积 核 输出 
4x4x3 3x3x3x1 2X2 





图 1.18” 卷 积 运算 的 示意 图 ， 在 这 个 例子 里 有 一 个 大 小 为 3 x 3 x 3 x 1 的 卷 积 核 ( Filter， 也 称 为 
Kernel ) ( RUA: 高 x 宽 x 输入 通道 数 x 输出 通道 数 ) 被 用 到 了 一 个 大 小 为 4x4 (高 
x 宽 ) 的 有 3 个 输入 通道 的 RBG 图 片上 。 图 片 和 卷 积 核 的 点 乘 在 不 同 的 通道 上 都 会 应 用 。 
点 乘 所 获得 的 值 最 终 会 被 求 和 ， 然 后 得 到 输出 的 左上 角 的 那个 值 


输入 































































































































































































最 大 值 池 化 平均 值 池 化 














1 2 
5 4 3.25 | 2.25 

4 2 

1 3 5 6 3 3.5 






































图 1.19 2 x 2 最 大 值 池 化 和 平均 值 池 化 的 例子 ， 它 们 的 步 长 为 2， 输 入 大 小 是 4x 4 











我 们 可 以 进一步 地 通过 批 标准 化 ( 批 标准 化 层 )， 即 内 部 的 样 例 迁移 ， 来 提高 CNN 的 训练 效 
率 (Ioffe et al., 2015)。 我 们 之 前 提 过 ， 一 个 批 标准 化 层 是 通过 一 个 平均 值 和 一 个 方差 来 进行 标准 
化 且 独 立 于 其 他 层 的 。 也 就 是 说 ， 批 标准 化 简化 了 在 梯度 更 新 的 时 候 不 同 层 之 间 的 关系 ， 从 而 可 
以 用 更 大 的 学 习 速 率 来 加 快 学 习 过 程 。 
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1.9 ”循环 神经 网 络 





3@32x32 


m. 











1.20 





1.9 











两 个 卷 积 层 











循环 神经 网 络 


S 


24@32x32 


24@16x16 


1x256 











个 池 化 层 和 一 个 全 连接 层 的 网 络 。 














Ba 








片 使 用 NN-SVG 构造 





循环 神经 网 络 (Recurrent Neural Networks, RNN) (Rumelhart et al., 1986) 是 另 一 利 
网 格 加 数值 来 表示 ， 而 序列 数 和 


模型 结构 ， 


常见 的 数据 类 型 ， 
票 的 价格 也 可 以 
序列 数据 的 一 

















主要 用 于 处 理 序 列 数据 。 图 














则 被 定义 为 
]— Ba A SE 








zx A 


LA 











金额 





像 数 据 可 以 
串 元 素 [235 T2, ep e 
来 表示 。 

个 重要 特点 是 ， 这 一 串 元 素 之 间 



























































深度 学 习 
时 作为 另 一 种 
单词 组 成 的 ， 而 股 





了 互相 影响 。 例 如 ， 人 们 可 以 轻松 地 根据 文章 





的 开头 ， 大 致 推测 出 文章 接 下 来 的 内 容 。 然 而 ， 针 对 这 种 元 素 之 间 的 影响 进行 建 模 是 相当 具有 挑 





战 性 的 , 尤其 是 


ME, 











这 一 串 序 列 非常 长 的 时 候 。 因 上 























IF 








考虑 前 序 信 息 和 后 序 信息 之 间 的 影响 。 

















与 卷 积 











f 





序列 上 不 同位 置 的 元 素 重 复 使 


经 网 络 类 似 ,循环 神经 网 络 同样 使 用 








5， 循环 神经 网 络 需 





要 能 












































到 “深度 学 习 从 2010 4 




















的 时 候 ， 猎 在 

















同一 组 权重 。 我 们 来 一 起 看 
FE 开始 受到 追捧 ”和 “从 2010 年 开始 ， 深 度 学 习 受 到 追捧 ”这 两 句 话 其 实 
表达 的 是 相同 的 意思 ， 尽 管 两 句 话 的 语序 并 不 相同 。 同 样 ， 当 卷 积 


了 参数 共享 。 参 数 共享 得 以 让 循环 ? 















































循环 神经 网 络 本 
像 相似 。 之 所 以 如 此 , 是 


入 图 











图 片 中 的 位 置 也 不 应 该 


Ei 











以 处 理 任意 长 度 的 输入 序列 , 这 一 点 与 





大 














对 输入 序列 ! 
一 个 隐 状 态 (Hidden State), H 
中 的 当前 数据 及 循环 币 












































隐 状 态 也 将 


SERT 


的 每 个 数据 元 素 ， 循 环 单元 会 被 依次 反复 调用 
有 于 记录 序列 中 的 信息 。 循环 单元 的 计算 
元 之 前 的 隐 状 态 。 循 环 单元 根据 

















j 在 下 一 轮 计算 当 

















hy 


^ 
pA 





HERAS (jt EH TE 08 BA] 7A 





MBIT, GE 



































经 网 络 对 猫 的 图 








IST 


能 够 有 效 地 积累 序列 信息 ， 





经 网 络 对 
经 网 络 需 要 能 够 学 





片 进行 分 类 





























经 网 络 使 用 了 循环 








， 如 图 1.21 Pray. defin 4 


已 元 


(Cell) 作为 基本 和 











卷 积 神经 网 络 可 以 处 理 任意 长 宽 的 输 











的 计算 单元 。 


针 











Y 














省 进行 计算 。 











| 


























Wiz; hi4] 十 b 





因此 循环 单元 中 会 维 
包含 两 个 输入 , 分 别 











护 
是 序列 

















两 个 输入 计算 新 的 隐 状 态 作 为 输 昌 
的 循环 单元 使 用 线性 变换 (公式 25): 


H, BTA) 





(1.25) 


25 



































图 1.21 ME 





经 网 络 结构 示意 








后 输出 新 的 隐 状 态 h 











公式 (1.25) 





















































H, ERS hei 与 输入 数据 zt 组 合 在 一 起 , 然后 与 线 怕 
fi EE b 也 可 以 加 入 


























小 于 1， 则 将 可 











简单 循环 



































ERK W 做 和 








图 。 循 环 单元 ( cell) 接收 数值 zt 和 前 序 信息 的 隐 状 态 hiis A 


E 阵 乘法 ， 同 时 
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来 在 法 国 工 作 ， 








的 结果 。 长 短期 记忆 (Long Short-Term Memory, LSTM) (Hochreiter et al., 19 


元 会 很 容易 预测 出 结果 是 “: 

















我 的 母语 是 


” 
, 





















































RY 











文 ”， 但 是 当 句 子 很 长 时 ， 如 “我 是 ! 

















隐 状 态 被 多 次 更 新 后 ， 简 单 循环 单元 很 可 能 无 法 预测 出 正确 
































的 循环 单元 ， 


























亦 常 被 简称 为 LSTM。 





























并 常用 于 处 理 长 序列 中 元 素 之 间 的 影响 。 使 用 LSTM 作为 循环 



































所 的 隐 状 态 当 中 。 由 于 线性 核 W 会 被 反复 计算 ， 循 环 神经 网 络 实际 上 构建 
一 个 深度 计算 图 ， 而 深度 较 大 的 计算 图 可 能 导致 梯度 爆炸 
于 1 时 ,可 能 导致 梯度 爆炸 , 而 梯度 爆炸 会 让 学 习 过 程 完全 失效 。 与 之 相反 , AW 的 特征 值 幅度 
能 导致 梯度 消失 ， 梯 度 消失 会 让 模型 无 法 有 效 地 根 
入 序列 很 长 ， 那 么 使 用 简单 循环 和 








或 者 梯度 消失 。 当 W 的 特征 值 幅度 大 





























目标 进行 优化 。 如 果 输 
的 循环 神经 网 络 将 有 可 能 遇 到 这 两 种 梯度 问题 的 其 中 之 一 。 


元 有 严重 的 遗忘 问题 ， 当 给 定 句子 “我 是 中 国人 ， 我 的 母语 是 

















简单 循环 























国人 ， 我 去 英国 





97) 是 一 种 更 加 先进 
元 的 循环 神经 网 络 





Bep. m 



































与 简单 循环 单元 不 同 ，LSTM 循环 单元 有 两 个 状态 量 : 单元 状态 (Cell State), WN Cy 隐 









































状态 (Hidden State), WA ht。 计 算 单元 状态 的 过 程 实际 上 构建 了 一 条 信息 高 速 路 (如 图 1.22 所 























示 )， 这 条 信息 高 速 路 贯穿 整个 序列 并 且 只 使 用 了 简单 的 计算 过 程 。 

































































流 可 以 较为 便捷 地 穿越 整个 序列 ， 因 此 LSTM 
之 间 的 影响 ， 即 长 




















由 于 这 条 信息 高 速 路 让 信息 



































可 以 较 好 地 考虑 长 序列 当中 两 个 吕 
期 记忆 。 与 此 同时 ，LSTM 基于 门 (Gate) 的 机 
计算 机 制 利 用 sigmoid 激活 函数 来 控制 信息 的 遗忘 或 者 厂 加 ， 因 为 








sigmoid 函数 的 














E 离 较 远 的 元 素 
出 计算 隐 状 态 。 这 种 基于 门 的 














值 域 介 于 0 和 





1 之 间 。 也 就 是 说 ， 当 sigmoid 函数 输出 为 1 时 ， 相 对 应 的 信息 会 被 完整 地 保留 。 与 之 相反 ， 当 
sigmoid 函数 输出 为 0 时 ， 相 对 应 的 信息 会 完全 丢失 。 
































在 LSTM 当中 , 一 共有 三 个 
Gate) 和 输出 门 Output Gate). EPA, HERS P TER TE BT AAR RE B 
应 该 被 遗忘 。 其 次 ， 输 入 门 决定 哪些 输入 信息 应 该 被 加 入 单元 状态 











3t] 








F 门 的 计算 机 制 , 分 别 是 遗 态 门 (Forget Gate). AT] Cnput 

















元 状态 当 ， 











E 
是 否 





























部 分 信息 
， 目 的 是 长 期 存储 这 部 分 信 











恩 并 取代 被 遗忘 的 信息 。 最 后 的 输入 门 根据 最 新 的 单元 状态 ,决定 LSTM 循环 单元 的 输出 。 这 三 
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1.9 ”循环 神经 网 络 





LSTM 循环 单元 LSTM 循环 单元 





图 1.22 使 用 LSTM 循环 单元 的 循环 神经 网 络 示意 图 。LSTM 循环 单元 包括 两 个 状态 ， 即 单元 状态 
( Cell State ) C, JRZ ( Hidden State ) hi。 除 此 之 外 ， 还 有 三 个 门 ( Gate ) 用 于 控制 
信息 的 取舍 。 本 图 依据 文献 (Olah, 2015) 重新 绘制 























































































































个 基于 门 的 计算 机 制 可 以 用 方程 (1.26) 定义 ， 其 中 o 代表 simoid 函数 。 





























遗忘 门 : fi =o(Wilh; 2] + by) 
输入 门 : i, = o(W;[hi-1; v] + bi) 
输出 门 : o; = o(Wo|hi—1; £] + bo) 
更 新 单元 状态 : C, = fi x Ci-1 d x tanh(Wolhe 4; 2] + bc) 
更 新 隐 状 态 : hi = o, x tanh(C;) (1.26) 
循环 神经 网 络 有 很 多 种 ， 而 LSTM 是 其 中 之 一 ， 还 有 GRU (Gated Recurrent Units). fr ff 



























































研究 工作 尝试 对 比 了 不 同 结构 的 循环 神经 网 络 ， 但 是 关于 哪 一 种 结构 更 优 
et al., 2014; Jozefowicz et al., 2015)。 

在 深度 学 习 中 ， 循 环 神经 网 络 主要 用 于 处 理 序列 数据 ， 如 自然 语言 和 时 间 序 列 (Chung et al., 
2014; Liao et al., 2018b; Mikolov et al., 2010)， 同 时 也 会 用 于 处 理 强化 学 习 的 问题 (Peng et al., 2018; 
Wierstra et al., 2010)。 根 据 输 入 和 输出 的 关系 ， 循 环 神经 网 络 的 结构 在 不 同 的 场景 也 会 有 些许 变 
化 。 例 如 ， 在 文本 分 类 的 问题 中 ， 循 环 神经 网 络 的 输入 是 一 串 单词 序列 ， 而 输出 是 单个 代表 类 别 
的 标签 (Lee et al., 2016; Zhang et al., 2019a) 。 在 机 器 翻译 (Bahdanau et al., 2015; Luong et al., 2015; 
Sutskever et al., 2014) 或 者 自动 摘要 (Nallapati et al., 2017) 的 任务 中 ， 循 环 神经 网 络 的 输入 和 输出 
均 是 一 串 单词 序列 。 关 于 更 多 的 细节 , 感 兴 趣 的 读者 可 以 查看 我 们 其 他 的 讲义 , 链接 见 读者 服务 。 














目前 尚 无 定论 (Cho 
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第 1 章 深度 学 习 入 站 





aM, 


1.10 =a 


深度 


习 的 实现 样 例 








本 节 将 介 
sorLayer 2.0. 


绍 深度 学 习 的 实现 样 例 ， 


1.10.1 张 量 和 梯度 












































uH 下 , 





因为 在 Eager execution Uil. 
阵 乘法 示例 中 ， 我 们 可 以 通 ; 
阵 的 乘法 。 
































代码 1.1 


运算 图 和 会 话 
过 tf.constant A ÆRE, 3-38 





JK*& (Tensor) 是 TensorFlow 中 最 基本 的 计算 单元 ， 特 指 ; 
成 ， 如 tf.constant，tf.matmul 等 。 这 些 张 量 本 身 并 不 存储 计算 乡 
session 中 产 Lv RINT REA» 在 TensorFlow 2.0 ! 











其 中 模型 的 代码 将 基于 Python 3, TensorFlow 2.0 和 Ten- 


LH 


TH 





十 算 函 数 的 输出 ， 由 计算 函数 9 
吉 果 ， 而 是 为 获取 TensorFlow 


， 无 须 手 动 运行 会 话 (Session), 









































的 运行 细节 仅 在 后 端 可 见 。 








Lb, dE PIA 
前 过 tf.matmul 计算 输出 为 另 一 个 矩 














TensorFlow 中 基于 张 量 的 矩阵 乘法 











>>> import tensorflow as tf 
>>> a = tf.constant([[1, 2], [1, 2]]) 
# tf.Tensor( 

# [[1 2] 

# [1 211], 2), dtype-int32) 
>>> b = tf.constant([[1], [21] 

# tf.Tensor( 

# [[1] 

# [2]], 1)5 
>>> c = tf.matmul(a, b) 


shape-(2, 


shape-(2, dtype-int32) 


# tf.Tensor( 
# [[5] 
# [5]], shape=(2, 


1), dtype=int32) 





























在 深度 神经 网 络 的 前 向 传播 ， 





























, Tensors 实例 会 

















们 可 以 通过 TensorFlow 自 带 的 
2.0 更 是 提供 了 tf.GradientTape 方法 ， 
神经 网 











zJ 





















































到 Tape ! 


























tape.gradient() 被 调 
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差分 和 运算 


图 相关 功能 ， 








外 动 相互 连接 , 从 而 形成 一 


个 运算 图 。 因此 ,我 
在 反 向 传播 时 计算 梯度 。TensorFlow 





























上 
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] 于 计算 给 


i 入 变量 

















央 ， 计 算 每 个 运算 


用 的 资源 才 会 











对 被 记录 操作 的 梯度 。 


络 的 前 向 传播 和 损失 函数 的 计算 应 当 在 tf.GradientTape 作用 域 之 内 ， 而 反 向 传 
播 和 权重 更 新 则 可 以 在 作用 域 之 外 。tf.GradientTape 将 所 有 在 作 
， 然 后 通过 反 向 自动 差分 机 
lH, tf.GradientTape PF 


























域内 执行 的 运算 都 记录 
a 符 和 输入 变量 相对 应 的 梯度 。 直 到 
被 释放 。 











代码 12 TensorFlow 和 TensorLayer 中 的 梯度 计算 


import tensorflow as tf 





import tensorlayer as tl 
def train(model, dataset, optimizer): 
给 -个 TensorLayer 模型 

， 其 中 x 为 输 


for x, y in dataset: 





# 构建 tf.GradientTape 的 作用 域 
with tf.GradientTape() as tape: 

prediction = model(x) # 前 向 传播 

loss = loss fn(prediction, y) # 损失 函数 
并 计算 梯度 


ik tf.GradientTape 所 占用 的 资源 






# SHER 
gradients = tape. gradiens gs. model.trainable weights) 
# 根据 梯度 ， 利 用 优化 器 


optimizer.apply_gradients(zip(gradients, model.trainable weights)) 








1.10.2 ”定义 模型 


在 TensorLayer 2.0 中 ， 模 型 (Model) 是 一 个 包含 多 个 Layer 的 实体 ， 并 且 定 义 了 Layer 
之 间 传 播 运算 。TensorLayer 2.0 提供 了 两 套 定义 模型 的 接口 ， 其 中 静态 模型 接口 让 用 户 可 以 更 加 
流畅 地 定义 模型 ， 而 动态 模型 接口 让 前 向 传播 更 加 灵活 。 静 态 模型 需要 用 户 手动 构建 运算 图 并 编 
译 ， 模 型 一 旦 编译 后 ， 前 向 传播 将 不 能 修改 。 与 之 不 同 的 是 ， 动 态 模 型 可 以 像 普 通 Python 代码 一 
样 即刻 执行 《Eager Execution)， 而 且 前 向 传播 是 可 以 修改 的 。 
如 下 面 的 实现 样 例 所 示 ， 我 们 可 以 将 静态 模型 和 动态 模型 的 差别 总 结 成 两 个 方面 。 首 先 ， 青 
态 模型 中 的 Layer 在 声明 的 同时 也 会 定义 与 其 他 Layer 的 连接 关系 〈 即 前 向 传播 )。 根 据 Layer 之 
间 的 连接 关系 ，TensorLayer 可 以 自动 推断 每 个 Layer 输入 变量 的 大 小 ， 并 相应 构建 权重 。 因 此 ， 
Model 初始 化 的 时 候 ， 只 需要 明确 模型 的 输入 和 输出 即 可 ， 而 TensorLayer 将 自动 根据 Layer 
之 间 的 连接 构建 运算 图 。 然 而 ， 动 态 模型 则 不 同 ， 前 向 传播 的 顺序 〈 即 Layer 之 间 的 连接 关系 ) 
在 动态 模型 初始 化 时 是 不 需要 明确 的 ， 因 为 动态 模型 的 前 向 传播 直到 前 向 函数 forward 被 实际 
调用 的 时 候 才 能 确定 。 因 此 ， 动 态 模 型 无 法 自动 推断 每 个 Layer 输入 变量 的 大 小 ， 必 须 通过 输入 
参数 in_channels 显 式 地 明确 Layer。 
其 次 ， 静 态 模型 的 前 向 传播 一 旦 定义 即 固定 ， 因 此 更 加 易于 加 速 计算 过 程 。TensorFlow 2.0 提 
供 了 一 个 新 的 功能 ， 即 tf.function， 可 作为 装饰 器 套 在 函数 上 ， 加 速 函数 内 的 计算 。 与 静态 模 
型 不 同 的 是 ， 动 态 模 型 的 前 向 传播 更 加 灵活 。 例 如 ， 用 户 可 以 根据 不 同 的 输入 和 参数 来 控制 前 向 
传播 ， 同 时 也 可 以 根据 需要 选择 执行 或 者 跳 过 部 分 Layer 的 计算 。 
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代码 1.3 ”静态 模型 样 例 ， 多 层 感知 器 ( MLP ) 





import tensorflow as tf 
from tensorlayer.layers import Input, Dense 


from tensorlayer.models import Model 





def get_mlp_model (inputs_shape) : 
ni = Input(inputs. shape) 





# 因为 明确 定义 了 Layer 之 间 的 i 





每 个 Layer 的 in_channels 

nn = Dense(n_units=800, act=tf.nn.relu) (ni) 
nn = Dense(n_units=800, act=tf.nn.relu) (nn) 
nn = Dense(n_units=10, act=tf.nn.relu) (nn) 
建 模型 


M = Model(inputs-ni, outputs=nn) 





return M 


MLP = get_mlp_model([None, 784]) 


# 开启 eval 模式 





# 该 计算 以 通过 TensorFlow 2.0 中 的 @tf.function 加 速 


outputs = MLP(data) 





代码 14 MARL. BRR (MLP) 





import tensorflow as tf 
from tensorlayer.layers import Input, Dense 


from tensorlayer.models import Model 


class MLPModel (Model): 
def __init__(self): 


super(MLPModel, self).__init__Q 
# 因为 无 法 












明确 Layer 之 间 的 连 供 in_channels 

i 的 大 小 ， 即 784 

self.densel = Dense(n_units=800, act-tf.nn.relu, in channels-784) 
self.dense2 = Dense(n_units=800, act=tf.nn.relu, in_channels=800) 


self.dense3 = Dense(n_units=10, act=tf.nn.relu, in_channels=800) 
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1.10 深度 学 习 的 实现 样 例 





def forward(self, x, foo=False): 
# 定义 前 向 传播 
z = self.densel(z) 
z = self.dense2(z) 


out = self.dense3(z) 





if foo: 
out = tf.nn.softmax (out) 


return out 


MLP = MLPModel () 


# 开启 eval 模式 









MLP.evalQ 

# 给 定 输入 数 

# 通 控制 前 向 传播 

outputs_1 = MLP(data, foo=True) # 使 用 softmax 
outputs_2 = MLP(data, foo=False) # 不 使 用 softmax 





110.3 BEXE 


TensorLayer 2.0 为 用 户 提 供 了 大 量 的 神经 网 络 层 ， 也 支持 Lambda Layer 以 方便 用 户 创造 高 
度 自 定义 的 层 。 如 下 所 示 ， 最 简单 的 例子 是 把 一 个 lambda 表达 式 直 接 传 入 Lambda Layer. HF 
可 以 通过 一 个 自 定义 输入 参数 的 函数 和 fn_args 选项 来 初始 化 或 者 调用 Lambda Layer. 














































































































import tensorlayer as tl 
x = tl.layers.Input([8, 3], name=’ input’) 
y = tl.layers.Lambda(lambda x: 2*x) (x) £ 没有 可 训练 的 权重 


def customize fn(input, foo): £ 参数 可 以 通过 Lambda Layer 的 fn args 定义 
return foo * input 


z = tl.layers.Lambda(customize. fn, fn args-('foo': 42})(x) # this layer has no weights. 














Lambda Layer 拥有 可 训练 的 权重 。 下 面 的 示例 可 以 展示 如 何在 自 定 义 函数 外 定义 权重 ， 并 
通过 fn weights 选项 传 入 Lambda Layer. 
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import tensorflow as tf 


import tensorlayer as tl 





a = tf.Variable(1.0) # He X MAF 的 权重 
def customize_fn(x): 
return x +a 
x = tl.layers.Input([8, 3], name=’input’) 
y = tl.layers.Lambda(customize fn, fn weights-[a])(x) # 通过 fn weights (£354 E 

















此 外 ，Lambda Layer 还 可 以 使 Keras 5j TensorLayer 兼容 。 用 户 可 以 定义 一 个 Keras 模型 ， 
并 将 其 以 一 个 函数 的 形式 传 入 Lambda Layer， 因 为 Keras 的 模型 是 可 被 调用 的 。 同 时 ， 为 了 让 
自 定 义 模 型 和 Keras 模型 一 起 被 训练 ，Keras 模型 中 可 被 训练 的 权重 需要 被 手动 提取 ， 然 后 传 入 
Lambda Layer 中 。 
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import tensorflow as tf 

import tensorlayer as tl 

# 定义 一 个 Keras 模型 

layers = [ 
tf.keras.layers.Dense(10, activation-tf.nn.relu), 
tf.keras.layers.Dense(5, activation-tf.nn.sigmoid), 
tf.keras.layers.Dense(1, activation-tf.identity) 


] 


perceptron = tf.keras.Sequential (layers) 








7 H 
Ay 


£z AWE 


获得 Keras 模型 的 
_ = perceptron(np.random.random([100, 5]).astype(np.float32)) 





class CustomizeModel(tl.models.Model): 
def | init (self): 
super(CustomizeModel, self). init | 0O 
self.dense - tl.layers.Dense(in channels-1, n units-5) 
self.lambdalayer - tl.layers.Lambda(perceptron, perceptron.trainable variables) 
# 将 可 以 训练 的 权重 传 





合 Lambda Layer 


def forward(self, x): 
z = self.dense(x) 
z = self.lambdalayer(z) 


return z 
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1.10.4 SERI: MNIST 数据 集 上 的 图 像 分 类 


] 户 可 以 通过 TensorLayer 2.0 中 提供 的 Model. Layer 和 其 他 支持 性 的 API 来 灵活 、 直 观 地 
设计 和 实现 自己 的 深度 学 习 模 型 。 为 了 帮助 读者 更 好 地 了 解 如 何 用 TensorLayer 实现 一 个 深度 学 
习 模 型 ， 这 里 首先 介绍 一 个 利用 多 层 感 知 器 在 MNIST 数据 集 (LeCun et al., 1998) 上 分 类 图 片 的 示 
例 。 该 数据 集 包含 了 70,000 张 手写 数字 的 图 片 。 一 个 深度 学 习 模 型 的 建立 通常 会 包含 五 个 步 又 ， 
分 别 是 数据 加 载 、 模 型 定义 、 训 练 、 测 试 和 模型 存储 。 

TensorLayer 在 t1.files 中 提供 了 多 个 常用 数据 集 的 API， 包 括 MNIST、CIFAR10、PTB、 
CelebA 等 ,比如 说 ,我 们 可 以 用 t1.files.load mnist dataset 和 一 个 具体 的 shape 加 载 MNIST 
数据 集 。 通 常 来 说 ， 数 据 集会 被 划分 为 三 个 子 集 : 训练 集 、 验 证 集 和 测试 集 。 
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# 通过 TensorLayer 加 载 MNIST 数据 人 
X train, y train, X val, y val, X test, y test = tl.files.load mnist dataset(shape-(-1, 
784)) # 每 个 MNIST 图 像 的 原始 尺寸 为 28 * 28， 即 一 共有 784 个 像素 点 




















就 像 在 1.10.2 节 里 提 到 的 一 样 ， 在 TensorLayer 2.0 中 ， 一 个 多 层 感 知 器 模型 可 以 通过 静态 模 
型 或 者 动态 模型 两 种 方法 来 实现 。 在 这 个 例子 中 ， 我 们 的 模型 有 三 个 Dense 层 ， 且 为 静态 模型 ， 
同时 ， 用 Dropout 来 防止 过 拟 合 现 象 的 产生 。 
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# 构建 模型 
ni = tl.layers.Input([None, 784]) # 根据 输入 数据 定义 尺寸 





# 多 层 感知 器 
nn = tl.layers.Dropout (keep=0. 8) (ni) 

nn = tl.layers.Dense(n_units=800, act=tf.nn.relu) (nn) 
nn = tl.layers.Dropout (keep=0.5) (nn) 

nn = tl.layers.Dense(n_units=800, act=tf.nn.relu) (nn) 
nn = tl.layers.Dropout (keep=0.5) (nn) 

nn = tl.layers. penset- units=10, act=None) (nn) 

# 给 定 输入 和 输出 ， 构 





network = tl.models.Model(inputs-ni, outputs=nn, name="mlp") 

















多 层 感 知 器 在 MNIST 数 据 集 上 的 训练 是 指 对 其 权重 的 学 习 。 用 户 可 以 通过 调用 tl.utils.fit 
函数 来 触发 训练 过 程 。 除 此 之 外 ， 我 们 还 需要 通过 tl.utils.test 函数 来 验证 模型 的 性 能 。 






































def acc(_logits, y_batch): 


return tf.reduce_mean( 


tf.cast( 
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章 深度 学 习 入 门 


3*8 
+8 





tf.equal ( 
tf.argmax(_logits, 1), 
tf.convert to tensor(y batch, tf.int64)), 
tf.float32), 


name-'accuracy' 


) 
# 训练 
tl.utils.fit( 


network, 4 模型 


Js 


train_op=tf.optimizers.Adam(learning_rate=0.0001), 4 4 





J- 3 


cost-tl.cost.cross entropy, # 损失 






X train-X train, y train-y train, # 训练 集 








acc=acc, # 评估 指标 
batch size-256, 4 批 祥 本 数量 
n_epoch=20, # 训 | 经 











X val-X val, y_val=y_val, eval train-True, # 5j 



















) 

# 测试 

tl.utils.test( 
network, # 训练 好 的 模型 
acc=acc, # 评估 指标 
X test-X test, y test-y test, 4 IMRE 
batch size-cNone, # SEXE, 
# 很 小 的 时 候 可 以 将 此 设置 为 None 
cost=tl.cost.cross_entropy # 损失 

) 
































最 后 ， 多 层 感 知 器 模型 的 权重 可 以 保存 至 本 地 的 一 个 文件 中 ， 使 得 我 们 可 以 在 后 面 需要 的 时 
候 恢复 模型 参数 ， 用 于 推理 ， 该 多 层 感 知 器 示例 的 完整 实现 代码 链接 见 读者 服务 。 






































# 将 模型 权重 保存 到 文件 中 


network.save weights('model.h5') 
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1.10.$“ 卷 积 神经 网 络 : CIFAR-10 数据 集 上 的 图 像 分 类 


CIFAR-10 数据 集 (Krizhevsky et al., 2009) 是 一 个 通用 的 、 有 具有 一 定 挑战 性 的 图 像 分 类 基准 测 
试 。 此 数据 集 一 共 包含 10 类 数据 ， 其 中 每 类 分 别 有 6000 张 32 x 32 RGB 图 片 ， 且 每 张 图 片 只 
专注 于 描述 单个 物体 ， 如 狗 、 飞 机 、 船 舶 等 。 使 用 TensorLayer 2.0 中 的 Dataset 和 Dataloader 
APIs， 我 们 可 以 很 简单 地 加 载 CIFAR-10 并 对 其 做 数据 增强 。 






























































































































































# 

def _fn_train(img, target): 
#1. 随机 切割 长 宽 均 为 24 的 一 小 块 图 片 
img = tl.prepro.crop(img, 24, 24, False) 
#2. 随机 水 平 翻转 图 片 
img = tl.prepro.flip_ eda is. random-True) 
#3. 正则 化 : 减 去 像素 点 并 除 以 方差 
img = tl.prepro.samplewi Sp 
target = np.reshape(target, ©) 
return img, target 

# 加 载 训练 集 


train ds = tl.data.CIFAR10(train_or_test=’train’, shape=(-1, 32, 32, 3)) 
# dataloader 加 f : 





train_dl = tl.data.Dataloader(train_ds, transforms=[_fn_train], shuffle=True, 
batch_size=batch_size, output_types=(np.float32, np.int32)) 


# 加载 测 试 集 
test ds = tl.data.CIFAR10(train_or_test=’test’, shape=(-1, 32, 32, 3)) 
# dataloader 加 载 测试 集 


test dl = tl.data.Dataloader(test ds, batch size-batch size) 





for X batch, y batch in train dl: 
# 训练 、 测 试 模型 的 代码 









































在 这 个 示例 里 ， 我 们 将 使 用 带 有 批 标准 化 (offe et al., 2015) 的 卷 积 神经 网 络 来 对 CIFAR-10 
中 的 图 片 进行 分 类 。 该 模型 有 两 个 卷 积 模块 ， 其 中 每 个 模块 含有 一 个 批 标准 化 层 。 模 型 的 最 后 包 
含 了 三 个 全 连接 层 。 该 卷 积 网 络 示例 的 完整 实现 代码 链接 请 见 读者 服务 。 












































# 包含 了 BatchNorm 的 卷 积 神经 网 络 


def get. model batchnorm(inputs. shape): 
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W_init = tl.initializers.truncated_normal (stddev=5e-2) 
W init2 = tl.initializers.truncated_normal (stddev=0.04) 


b_init2 = tl.initializers.constant(value=0.1) 


# 输入 层 

ni = Input(inputs. shape) 
# 第 一 个 卷 积 层 Conv2d， 以 
nn = Conv2d(64, (5, 5), (1, 1), padding=’SAME’, W_init=W_init, b_init=None) (ni) 
nn = BatchNorm2d(decay=0.99, act=tf.nn.relu) (nn) 

nn = MaxPool2d((3, 3), (2, 2), padding=’ SAME’) (nn) 


及 BatchNorm 和 池 化 层 MaxPool 





) 


# 第 二 个 卷 积 层 Conv2d， 以 
nn = Conv2d(64, (5, 5), (1, 1), padding=’SAME’, W_init=W_init, b_init=None) (nn) 
nn = BatchNorm2d(decay=0.99, act=tf.nn.relu) (nn) 

nn = MaxPool2d((3, 3), (2, 2), padding=’ SAME’) (nn) 


及 BatchNorm 和 池 化 层 MaxPool 








层 的 输出 传递 给 三 个 全 





nn = Flatten() (nn) 
nn = Dense(384, act=tf.nn.relu, W_init=W_init2, b_init=b_init2) (nn) 
nn = Dense(192, act-tf.nn.relu, W init-W init2, b_init=b_init2) (nn) 


nn - Dense(18, act-None, W init-W init2)(nn) 


th #2 E 


M = Model(inputs-ni, outputs-nn, name=’ cnn’) 





return M 





1.10.6 ”序列 到 序列 模型 : 聊天 机 器 人 


聊天 机 器 人 《Chatbot) 的 设计 通常 涵盖 了 语音 和 文字 对 话 的 应 用 。 在 这 个 示例 中 ， 我们 将 简 
化 这 一 设计 ， 并 考虑 文字 输入 和 反馈 的 情形 。 因 此 ， 序 列 到 序列 模型 (Seq2seq) (Sutskever et al., 
2014) 是 实现 聊天 机 器 人 的 一 个 很 好 的 选择 。 该 模型 需要 序列 作为 输入 和 输出 , 因此 , 我 们 可 以 在 
此 把 聊天 机 器 人 的 输入 和 输出 定义 为 句子 ， 又 可 被 理解 为 是 文字 的 序列 。seq2seq 模型 会 被 训练 
去 对 输入 句子 以 另 一 句 话 的 形式 做 适当 的 回应 。 虽 然 seq2seq 模型 在 提出 的 时 候 主要 应 用 于 机 器 
翻译 , 但 在 其 他 序列 -序列 应 用 场景 中 同样 有 具有 良好 的 应 用 前 景 ,如 交通 预测 (Liao et al., 2018a,b)、 
文本 自动 摘要 (Liu et al., 2018; Zhang et al., 2019b) 等 。 
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在 实践 中 ， 一 个 seq2seq 模型 由 两 个 RNN 组 成 ， 其 一 为 








af) RNN, 




















码 RNN 会 学 习 一 个 对 于 输入 语句 的 表示 ， 然 后 解码 RNN (fin 





























其 二 为 解码 RNN。 纺 
尝试 生成 一 个 针对 输入 的 回应 。 
TensorLayer 库 提供 的 API 可 以 在 一 行 以 内 生成 一 个 Seq2seq 模型 。 


























# Seq2seq 模型 
model = Seq2seq( 


的 最 大 长 度 





decoder_seq_length=decoder_seq_length, # 解码 
cell_enc=tf.keras.layers.GRUCell, # 编码 RNN 的 1 
cell_dec=tf.keras.layers.GRUCell, # 2 
n layer-3, £ 编码 RNN 和 解码 
n_units=256, # RNN 的 











embedding_layer=tl.layers.Embedding(vocabulary_size=vocabulary_size, 


H 


embedding size-emb dim), # 编码 RNN 的 岁入 层 














下 面 展 示 了 一 些 基于 Seq2seq 的 聊天 机 器 人 模型 的 结果 ， 聊 天 机 器 人 的 完整 实现 代码 链接 请 




















见 读 者 服务 。 该 模型 可 以 在 获取 一 个 输入 句子 后 输出 多 种 可 能 的 结果 。 
































Query > happy birthday have a nice day 
> thank you so much 

> thank babe 

> thank bro 

> thanks so much 


> thank babe i appreciate it 
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本 章 将 介绍 传统 强化 学 习 的 基础 ， 并 概览 深度 强化 学 习 。 我 们 将 从 强化 学 习 中 的 基本 定义 





和 概念 开始 ， 包 括 智能 体 、 环 境 、 动 作 、 状 态 、 奖 励 函 数 、 马 尔 可 夫 〈Markov) 过 程 、 马 尔 可 夫 






































奖励 过 程 和 马尔 可 夫 决 策 过 程 ， 随 后 会 介绍 一 个 经 典 强 化 学 习 问 题 一 一 赌博 机 问题 ， 给 读者 提供 


对 传统 强化 学 习 潜在 机 理 的 基本 理 
奖励 过 程 和 价值 函数 估计 的 结合 产生 了 在 如 















































色 大 多 数 强 化 学 习 方 法 





解 。 这 些 概念 是 系统 化 表达 强化 学 习 任 务 的 基石 。 马 尔 可 夫 















































的 核心 结果 一 一 贝尔 曼 








应 


(Bellman) 方程 。 最 优 价值 函数 和 最 优 集 略 可 以 通过 求解 贝尔 曼 方 程 得 





方程 的 主要 求解 方式 : 动态 规划 (Dynamic Programming), RIF- 


差分 (Temporal Difference) 方法 。 


我 们 进一步 介绍 深度 强化 学 习 策 略 优化 ， 


两 大 类 : 基于 价值 的 优化 和 基于 策略 的 优化 。 在 基于 价值 的 优化 







































































对 策略 和 价值 的 拟 合 。 策 
， 我 们 介绍 基于 梯度 的 方法 ， 

















到 ， 还 将 介绍 三 种 贝尔 曼 


FZ (Monte-Carlo) 方法 和 时 间 





略 优化 的 内 容 将 会 被 分 为 

















如 使 用 深度 神经 网 络 的 深度 Q 网 络 (Deep Q-Networks); 在 基于 策略 的 优化 中 ， 我 们 详细 介绍 确 








定性 策略 梯度 (Deterministic Policy Gradient) 和 随机 性 策 


























咯 梯度 (Stochastic Policy Gradient)， 并 


提供 充分 的 数学 证 明 。 结 合 基于 价值 和 基于 策略 的 优化 方法 产生 了 著名 的 ActorCritic 结构 ， 这 























2. 简介 


导致 诞生 了 大 量 高 级 深度 强化 学 习 算法 。 














本 章 介 绍 强化 学 习 和 深度 强化 学 习 的 基础 知识 ， 包 括 基本 概念 的 定义 和 解释 、 强 化 学 习 的 一 
些 基 本 理论 证 明 ， 这 些 内 容 是 深度 强化 学 习 的 基础 。 因 此 ， 我 们 鼓励 读者 能 够 掌握 本 章 的 内 容 后 
































再 去 学 习 之 后 的 章节 。 下 五 

















， 从 强化 学 习 上 


的 基本 概念 开 





F 始 学 习 。 








如 图 2.1 所 示 ， 智 能 体 (Agent) 与 环境 (Environment) 是 强化 学 习 的 基本 元 素 。 环境 是 智能 
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体 与 之 交互 的 实体 。 如 图 2.2 右边 所 示 ， 一 个 环境 可 以 是 一 个 雅 达 利 乒 乓 球 游 戏 (Pong Game) 。 
智能 体 控制 一 个 球拍 来 反弹 小 球 ， 从 而 使 环境 产生 变化 。 智 能 体 的 “交互 ”是 通过 预先 定义 好 的 
动作 集合 (Action Set) A = {Aj, Ao...} 来 实现 的 。 动 作 集 合 描述 了 所 有 可 能 的 动作 。 在 这 个 乒乓 
球 游戏 中 ， 动 作 集合 是 球拍 { 向 上 移动 ,向 下 移动 }。 那 么 强化 学 习 的 目的 就 是 教会 智能 体 如 何 很 
好 地 与 环境 交互 ， 从 而 在 预先 定义 好 的 评价 指标 《Evaluation Metric) 下 获得 好 的 成 绩 。 在 乒乓 球 
游戏 中 ， 评 价 指标 是 玩家 获得 的 分 数 。 若 小 球 穿 过 了 对 手 的 防线 ， 智 能 体 则 获得 奖励 + = 1。 相 
反 ， 若 小 球 穿 过 了 智能 体 的 防线 ， 则 智能 体 获 得 奖励 + = 一 1。 













































































智能 体 
状态 奖励 动作 
St Rt At 
Resa 
环境 
Sta 


图 2.1 智能 体 与 环境 
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图 22 两 类 游戏 环境 : 围棋 ( 左边 ) 的 观测 包含 了 环境 状态 的 所 有 信息 ， 这 个 环境 是 完全 可 观 
测 | 的 。 FAA FRE ( 右边 ) 的 观测 如 果 只 有 单 帧 画面 ， 不 能 包含 小 球 的 速度 和 运动 方 
向 ， 这 个 环境 是 部 分 可 观测 的 
















































































































































































我 们 现在 通过 图 2.1 来 看 看 智能 体 与 环境 的 关系 细节 。 在 任意 的 一 个 时 间 步 〈Time Step) 
ti， 智 能 体 首 先 观测 到 当前 环境 的 状态 3 ， 以 及 当前 对 应 的 奖励 值 Re。 基 于 这 些 状态 和 奖励 信 
上 息 ， 智 能 体 决 定 如 何 行动 。 智 能 体 要 执行 的 动作 4， 从 环境 得 到 新 的 反馈 ， 获 得 下 一 时 间 步 的 
状态 Sua 和 奖励 R41。 对 环境 状态 s Cs 是 一 个 与 时 间 步 t 无 关 的 通用 状态 表示 符号 ) 的 观 
测 〈Observation) 并 不 一 定 能 保证 包含 环境 的 所 有 信息 。 如 果 观 测 只 包含 了 环境 的 局 部 状态 信息 
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2.1 简介 





(Partial State Information ) ， 这 个 环境 是 部 分 可 观测 的 〈Partially Observable). 。 而 如 果 观 测 包 含 了 
































环境 的 全 部 状态 
在 实践 中 ， 观 测 通常 

















信息 。 





















































中 遗漏 任何 信息 ， 而 应 该 可 以 把 所 有 信息 提供 给 智能 体 。 









































为 了 更 好 地 理解 


部 分 


可 观测 环境 和 完 4 











的 围棋 游戏 是 一 个 典 











速度 和 运动 方向 并 不 


右边 的 雅 达 利 乒 乓 球 游戏 ! 
能 从 单 帧 画 


型 的 完全 可 观测 环 ] 
， 如 果 观 测 是 单 帧 画 
面 中 获得 。 





























浇 的 例子 ， 环 境 的 信息 是 所 有 的 棋子 的 位 置 。 


言 息 (Complete State Information)， 这 个 环境 是 完全 可 观测 的 (Fully Observable )。 
是 系统 真实 状态 的 函数 ， 使 得 我 们 有 时 很 难 辨别 观测 是 否 包 含 了 状态 的 所 有 


一 个 更 容易 理解 的 方法 是 从 信息 角度 ， 一 个 完全 可 观测 的 环境 不 应 从 整个 环境 的 潜在 状态 


























他 可 观测 环境 的 区 别 ， 我 们 来 看 两 个 例子 : 图 2.2 左边 











TÆR 2.2 

































































在 很 多 强化 学 习 














的 文献 中 ， 在 环境 对 












































间 步 了 无关 的 通 ) 
部 分 可 观测 的 ， 智 能 
时 时 ， 动 作 是 基于 
为 了 从 环境 中 给 
态 而 在 每 一 个 时 间 
些 情况 下 ， 奖 励 隐 



































给 智能 体 ] 












































体 不 能 直接 获得 




















网 测量 






































(Observation) 而 不 是 真 了 
提供 反馈 ， 一 个 奖励 函数 (Reward Function) 记 为 R， 会 根据 环境 状 
步 上 产生 一 个 立即 奖励 immediate Reward) Rt， 并 将 其 发 送 给 智能 体 。 在 一 
些 数 只 取决 于 当前 的 状态 ， 即 Ri = 
过 了 对 手 的 防线 ， 玩 家 会 立即 获得 正 数 的 奖励 。 这 个 例子 
在 很 多 情况 下 ， 奖 励 函 数 不 仅 取决 于 当前 状态 ， 而 








R(S;). 

















面 ， 就 是 一 个 部 分 可 观测 环境 。 


例如 ， 在 乒乓 球 游戏 中 ， 
， 奖 励 函 


大 | 








为 小 球 的 





这 是 


智能 体 是 完全 可 观测 的 条 件 下 ， 动 作 a (a 是 一 个 与 时 
动作 表示 符号 ) 通常 是 基于 状态 s 表示 的 智能 体 动 作 。 而 如 果 环 境 对 智能 体 是 
环境 潜在 状态 (Underlying State) 的 信息 ， 












































对 此 在 没有 其 他 









































如 果 小 球 穿 
数 只 取决 于 当前 状态 ,但 是 



























































和 动作 。 


作 ， 
要 考虑 另 一 个 智能 体 


状态 -动作 对 的 序列 。 



































在 强化 学 习 : 

















| 以 记录 智能 























中 随机 采样 而 来 的 ， 该 状态 分 布 记 为 po， 从 而 有 So ~ po(:)。 例 如 
围棋 的 开始 状态 则 可 以 是 棋子 在 棋盘 上 的 任意 位 置 。 




















的 


态 总 是 小 球 在 画 画 

















并 重复 模仿 执行 。 





个 简单 的 例子 是 : 如 果 我 们 需要 





和 这 个 智能 
这 时 ， 基 于 








对 智能 体 模 仿 整个 连续 序列 有 足够 的 指导 性 意义 。 
» SWE (Trajectory) 是 一 系列 的 状态 、 动 作 和 奖励 ; 





正中 间 。 而 








体 运动 过 程 ， 














一 个 动作 的 偏差 会 导致 后 续 状 态 和 动作 都 难 
的 状态 -动作 对 (State-Action Pair)， 而 且 需 要 考虑 
基于 当前 状态 和 动作 的 函数 ， 都 无 法 




















当前 状态 的 奖励 函数 ， 或 # 











取决 于 当前 的 动作 ， 甚 至 可 能 是 之 前 的 状态 
个 智能 体 记 住 环 境 中 另 一 个 智能 体 的 一 系列 连续 动 





























:以 对 齐 ， 那 么 这 个 奖励 不 仅 需 
































(So, Ao, Ro, $1, A1, Ri,---) 





本 如 何 和 环境 交互 。 轨迹 的 初始 状态 So, 是 从 起 始 状态 分 布 (Start-State Distribution) 





， 雅 达 利 乒乓 球 游戏 开始 的 状 





















































一 个 状态 到 下 一 个 状态 的 转移 (Transition) 可 以 分 为 : 要 么 是 确定 性 转移 过 程 (Deterministic 


Transition Process)， 要 么 是 随机 性 转移 过 程 (Stochastic Transition Process) 。 对 村 
下 一 时 刻 的 状态 S 由 一 个 确 


程 ， 





cM 

















性 函数 支配 : 








AE 


St = f (Sr, At), 














F 确 定性 转移 过 











(2.1) 
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REP Sai 是 唯一 的 下 一 个 状态 。 而 对 于 随机 性 转移 过 程 ， 下 一 时 刻 的 状态 S41 是 用 一 个 概 
率 分 布 (Probabilistic Distribution) 来 描述 的 : 




















Sia ~ p(Sua|Su At) (2.2) 


而 下 一 时 刻 的 实际 状态 是 从 其 概率 分 布 中 采样 得 到 的 。 

一 个 轨迹 有 时 候 也 称 为 片段 (Episode) 或 者 回合 ， 是 一 个 从 初始 状态 (Initial State) 到 最 终 
状态 〈Terminal State) 的 序列 。 比 如 ， 玩 一 整 盘 游戏 的 过 程 可 以 看 作 一 个 片段 ， 若 智能 体 赢 了 或 
者 输 了 这 盘 游 戏 , 则 到 达 最 终 状 态 。 在 一 些 时 候 ， 一 个 片段 可 以 是 由 多 局 子 游戏 (Sub-Games) 组 
成 的 《而 不 仅仅 是 一 盘 游 戏 )。 比 如 在 雅 达 利 乒乓 球 游戏 中 ， 一 个 片段 可 以 包含 多 个 回合 。 

我 们 用 两 个 重要 的 概念 来 结束 本 小 节 : 探索 (Exploration) 与 利用 (Exploitation, AMT fi tts 
叫 守 成 )， 以 及 一 个 著名 的 概念 : 探索 -利用 的 权衡 Exploration-Exploitation Trade-off)。 利 用 指 的 
是 使 用 当前 已 知 信 息 来 使 智能 体 的 表现 达到 最 佳 ， 而 智能 体 的 表现 通常 是 用 期 望 奖励 (Expected 
Reward) 来 评估 的 。 举 例 来 说 ， 一 个 淘金 者 发 现 了 一 个 每 天 能 提供 两 克 黄 金 的 金 矿 ， 同 时 他 也 知 
道 最 大 的 金 矿 可 以 每 天 提供 五 克 黄 金 。 但 是 如 果 他 花费 时 间 去 找 更 大 的 金 矿 ， 就 需要 停 下 挖掘 当 
前 的 金 矿 ， 这 样 的 话 如 果 找 不 到 更 大 的 金 矿 ， 那 么 在 找 矿 耗费 的 时 间 中 就 没有 任何 收获 。 基 于 这 
位 淘金 者 的 经 验 ， 去 探索 新 的 金 矿 会 有 很 大 的 风险 ， 淘 金 者 于 是 决定 继续 挖掘 当前 的 金 矿 来 最 大 
化 他 的 奖励 (这 个 例子 中 奖励 是 黄金 的 数量 )， 他 放弃 了 探索 而 选择 了 利用 。 淘 金 者 选择 的 策略 
(Policy〉 是 贪心 (Greedy) 策略 ， 即 智能 体 持续 地 基于 当前 已 有 的 信息 来 执行 能 够 最 大 化 期 望 奖 
励 的 动作 ， 而 不 去 做 任何 的 冒险 行为 ， 以 免 导致 更 低 的 期 望 奖 励 。 

探索 是 指 通过 与 环境 交互 来 获得 更 多 的 信息 。 回 到 淘金 者 的 例子 中 ,探索 指 的 是 淘金 者 希望 
花费 一 些 时 间 来 寻找 新 的 金 矿 ， 而 如 果 他 找到 更 大 的 金 矿 ， 那 么 他 每 天 能 获得 更 多 的 奖励 。 但 是 
为 了 获得 更 大 的 长 期 回报 (Long-Term Return)， 短 期 回报 (Short-Term Return) 可 能 会 被 牺牲 。 淘 
金 者 需要 面 对 在 探索 与 利用 间 抉 择 的 难题 , 要 决定 当 一 个 金 矿 产量 为 多 少时 应 当 进 行 利用 而 少 于 
多 少时 应 当 开始 探索 。 上述 的 例子 描述 了 探索 -利用 的 权衡 问题 , 这 个 问题 关乎 智能 体 如 何平 衡 探 
索 和 利用 ， 是 强化 学 习 研 究 非 常 重要 的 问题 。 我 们 下 面 进一步 通过 赌博 机 问题 (Bandit Problem) 
来 讨论 它 。 




































































































































































































































































































































































































































































































































































2.2 ”在 线 预测 和 在 线 学 习 


2.2.1 简介 


在 线 预 测 (Online Prediction) 问题 是 一 类 智能 体 需 要 为 未 来 做 出 预测 的 问题 。 假 如 你 在 夏 威 
夷 度假 一 周 ， 需 要 预测 这 一 周 是 否 会 下 雨 ; 或 者 根据 一 天 上 午 的 石油 价格 涨幅 来 预测 下 午 石油 的 
价格 。 在 线 预测 问题 需要 在 线 解 决 。 在 线 学 习 和 传统 的 统计 学 习 有 以 下 几 方 面 的 不 同 : 

。 样 本 是 以 一 种 有 序 的 《Ordered) 方式 呈现 的 ， 而 非 无 序 的 批 (Batch) 的 方式 。 
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2.2 在 线 预测 和 在 线 学 习 








。 我 们 更 多 需要 考虑 最 差 


情 有 所 掌控 。 












































。 学 习 的 目标 也 是 不 同 的， 在 线 学 习 企 图 
风险 。 我 们 会 稍 后 对 后 4 
如 图 2.3 左 侧 所 示 ， 单 臂 赌博 机 CSingle-Armed Bandit) 是 一 种 简单 的 
拉 机 械 手 臂 来 和 这 个 赌博 机 进行 互动 。 当 这 个 机 器 到 达 头 奖 的 时 候 ， 这 
见 很 多 赌博 机 被 摆 在 一 排 。 一 个 智能 体 训 
TE a 为 条 件 ， 它 对 于 不 同 的 赌博 机 
定 的。 智能 体 在 一 开始 是 不 知道 奖 
本 的 目标 是 ; 

















励 。 在 赌场 中 ， 我 们 常常 能 
RFR. KDE > 的 分 布 P(r 
对 某 一 台 赌 博 机 来 说 是 固 
尝试 来 增进 对 分 布 的 了 解 。 
要 在 每 个 时 间 步 上 从 众多 的 赌博 
Bandit，MAB )， 如 图 2.3: 























自由 。 


4 况 而 不 是 平均 情况 ， 因 为 我 们 需要 保 订 








































































































cj 




































































F 在 学 习 过 程 中 随时 都 对 事 


最 小 化 后 悔 值 “Regret)， 而 统计 学 习 需 要 减少 经 验 









































赌博 机 ， 智 能 体 通 过 下 
智能 体 就 会 得 到 一 个 奖 





































































































我 们 尝试 通过 一 般 的 强化 学 习 方法 来 解决 MAB 问题 。 
























































AIBIA AIBIA 

赌博 机 赌博 机 

A|BIA AiBIA 

赌博 机 赌博 机 
多 辟 赌 博 机 


























机 (A) SSBB (4) 




















其 中 任何 
来 说 是 不 同 的 ， 但 是 
励 分 布 的， 而 只 能 通过 不 断 
各 其 做 出 一 些 选择 后 所 得 到 的 奖 
了 选择 ， 我 们 把 这 种 游戏 称 为 多 药 赌 博 机 (Multi-Armed 
Ro MAB 给 予 了 一 个 智能 体 有 策 





的 实验 和 


励 最 大 化 。 智 能 体 需 

















选择 拉 下 哪 一 根 拉杆 的 





智能 体 的 动作 a 用 来 选择 具体 拉 哪 一 





根 拉 杆 。 在 这 个 动作 完成 以 后 ， 它 会 得 到 一 个 奖励 值 。 在 时 间 步 t 的 一 个 动作 a 的 价值 定义 为 





我 们 试图 用 它 来 选择 动作 。 如 
就 很 简单 ， 只 需 始终 选择 对 应 最 大 q 值 的 动作 即 可 。 然 而 ， 现 实 
fii HS SOR Qla), Tfi Qla) 


























对 于 展示 探索 -利用 











= EL[R4 | A: =a 

















我 们 知道 了 每 个 动作 a 




















近 q(a) 的 值 。 


的 权衡 问题 ，MAB 可 以 作为 一 个 很 好 的 例子 。 当 我 们 已 经 对 一 些 状态 的 











q 值 进行 估计 之 后 ， 如 果 





的 (Greedy)， 因 为 它 一 直 在 利 


















































的 真实 的 动作 值 g(a)， 圈 




















































































































取 动 作 ， 那 么 我 们 认为 这 样 的 智能 体 是 有 
估计 值 进行 利用 〈Exploitation)， 在 大 多 数 但 






































这 个 问题 


我 们 往往 要 估计 q 值 ， 把 它 的 














体 一 直选 择 有 最 大 Q 值 的 动作 的 话 ， 那 么 这 个 智能 体 就 是 贪心 














定 探索 (Exploration) H 











4 况 下 都 不 能 很 好 地 改善 策略 。 























计 过 的 g 值 。 如 果 一 个 智能 体 总 是 根据 最 大 化 @ (IDI 
只 对 已 有 
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一 个 种 单 的 基于 动作 价值 的 〈Action-Value Based) 方法 是 ， 通 过 将 在 时 间 t 前 选择 动作 a 所 


获得 的 总 体 奖励 除 以 这 个 动作 被 选择 的 次 数 来 估算 Qi(a) 的 值 : 
























































Da — 在 时 间 前 选择 动作 a 的 奖励 什 的 总 和 _ Dio Ri Tae 
0 ”在 时 间 t 前 动作 a 被 选择 的 次 数 TT 

















1, 的 值 在 z 为 真 时 为 1， 和 否则 为 0。 一 种 贪心 的 策略 可 以 写成 : 








A; = arg max Qi(a) (2.3) 





然而 ， 我们 也 可 以 把 这 个 贪心 策略 转化 成 有 一 定 探 索性 的 策略 ， 即 让 它 以 6 的 概率 去 探索 其 
他 动作 。 我们 把 这 种 方法 叫 作 e- 贪 心 (e-Greedy)， 因 为 它 在 概率 为 e 的 情况 下 随机 选择 一 个 动作 ， 
而 在 其 他 情况 下 ， 它 的 动作 是 贪心 的 。 如 果 我 们 有 无 限 的 时 间 步 长 ， 那 么 就 可 以 保证 Qila) 收敛 
K qla) TERRE, 这 个 简单 的 基于 动作 -价值 的 方法 也 是 一 种 基于 在 线 学 习 (Online Learning) 
的 方法 。 

让 我 们 以 多 辟 赌 博 机 问题 为 例 来 具体 介绍 在 线 学 习 。 假 设 我 们 在 每 个 时 间 步 + 上 观测 到 了 开 
dk R:， 一 个 简单 的 用 来 找 最 佳 动作 的 想法 是 通过 R, FA, 来 更 新 q 的 估计 。 之 前 介绍 的 用 来 计 
算 平均 值 的 办 法 是 对 所 有 在 时 间 t 之 前 选择 A, 的 奖励 值 求 和 ， 然 后 除 以 A, 出 现 的 次 数 。 这 样 
更 像 一 个 批量 学 习 ， 因 为 每 一 次 我 们 都 得 对 一 批 数 据点 进行 重新 计算 。 在 线 学 习 的 方法 则 利用 一 
个 移动 的 平均 值 ， 每 次 运算 都 基于 之 前 的 估算 结果 ， 如 QA) = QA) — QICAO/N; Qua (Az) 
= Qi( Ai) + Ri/No Qi 是 在 Ay 被 选择 过 i 次 以 后 的 gq 估计 值 ，N 是 hi 被 选择 的 次 数 。 




































































umi 























































































































































































































2.2.2 fails ES E LT 


当 我 们 有 天 > 2 RIEPEN, Sd EE TS E t= 1,2,---,T PR-AFR. E 
任何 时 间 +， 如 果 我 们 下 拉 的 手 辟 是 第 i 只 ， 那 么 相应 地 也 会 观察 到 奖励 Ri 









































算法 2.3 多 臂 赌博 机 学 习 
初始 化 K 只 手臂 
定义 总 时 长 为 全 
每 一 只 手臂 都 有 一 个 对 应 的 v; € [0, 1]。 每 一 个 奖励 都 是 独立 同 分 布地 从 v; 中 采样 得 到 的 
fort =1,2,--- ,T do 
智能 体 从 K 只 手臂 中 选择 A, = d 
环境 返回 奖励 值 向 量 Ri = (Rt, R, RE) 
智能 体 观 测 到 Ri 
end for 
















































































从 传统 意义 上 来 说 ， 我 们 会 尝试 最 大 化 奖励 值 。 但 是 在 随机 多 臂 赌博 机 CStochastic Multi- 
Armed Bandit) 里 ,我 们 会 关注 男 外 一 个 指标 “Metric)， 即 后 悔 值 (Regret)。 在 nn 步 之 后 的 后 悔 
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值 被 定义 为 


n n 
RE, = max Ri - Ri 
NS t t 
j=1,2,…,K 4 = 

















WEBER n 步 之 后 ,每 一 次 都 能 获得 的 最 大 奖励 值 之 和 ; 第 二 项 是 在 n 步 中 ， 真实 获得 
的 奖励 之 和 。 
对 为 我 们 的 动作 和 回报 带 来 了 随机 性 ， 为 了 选择 最 好 的 动作 ， 我 们 应 该 尝试 最 小 化 后 悔 值 的 
期 望 值 。 我 们 需要 把 两 种 不 同 的 后 悔 值 的 期 望 值 区 分 开 来 : 后 悔 值 和 伪 后 悔 值 (Pseudo-Regret ) 
的 期 望 值 。 我 们 将 后 悔 值 的 期 望 值 定义 为 
























































































































































IRE] = E[ max r2 Ri 2 Ri (2.4) 
GR S t=1 


我 们 将 伪 后 悔 值 的 期 望 值 定义 为 











RE, = ma » 
j=1,2,…,T 








(2.5) 





2_ BR- DOR 
t=1 t=1 















































以 上 两 种 后 悔 值 最 主要 的 区 别 在 于 它们 最 大 化 和 计算 期 望 值 的 顺序 是 不 一 样 的 。 后 悔 值 的 期 
望 值 会 相对 更 难 计算 一 些 ， 这 是 因为 对 于 伪 后 悔 值 来 说 ， 我 们 只 需要 优化 后 悔 值 的 期 望 值 ， 而 对 
于 后 悔 值 的 期 望 值 来 说 ， 我 们 则 需要 每 次 试验 时 都 找到 最 优 的 后 悔 值 再 取 期 望 值 。 而 这 两 个 值 满 
足 一 定 关系 ， 即 E[RE,,] > RE,,。 
定义 m 为 vi 的 平均 值 ， 而 v; 是 第 ;只 手臂 的 奖励 值 ， 必 = maxi-12…7。 在 一 个 随机 的 
环境 下 ， 我 们 把 公式 (2.5) 改写 为 
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RE, = nu* — E (2.6) 





2 Ri 
t=1 

















一 种 最 小 化 伪 后 悔 值 的 方法 是 选择 最 好 的 那 只 手臂 来 下 拉 ， 并 通过 之 前 介绍 的 e- 贪 心 策略 来 
获得 样本 。 一 种 更 先进 的 方法 叫 作 置信 上 界 〈Upper Confidence Bound, UCB) 算法 。 置 信 上 界 算 
法 使 用 霍 夫 丁 引 理 〈Hoeffding's Lemma) 来 估计 置信 上 界 ， 然 后 选择 那 只 基于 目前 估计 对 应 最 大 
奖励 平均 值 的 手臂。 

我 们 现在 开始 介绍 置信 上 界 策略 。 具体 关于 置信 上 界 算法 在 随机 多 辟 赌 博 机 中 对 后 悔 值 的 优 
化 可 以 在 (Bubeck et al., 2012) 中 找到 。 我 们 现在 来 具体 看 一 看 置信 上 界 基于 奖励 进行 策略 优化 的 
过 程 。 尽 管 在 随机 MAB 里 ， 奖 励 是 从 一 个 分 布 中 采样 得 到 的 ， 这 个 奖励 函数 分 布 在 时 间 上 是 稳 
定 的 。 以 e- 贪 心 策略 为 例 ，e- 贪 心 以 一 定 概率 〈 值 为 e) 来 探索 那些 非 最 优 动作 ,但 问题 是 ， 它 认 
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为 所 有 的 非 最 优 动作 都 是 一 样 的 ， 从 而 不 对 这 些 动作 进行 任何 
动作 ， 则 可 能 需要 优先 尝试 那些 没有 采用 过 的 或 




















公式 (2.3) 来 解决 这 个 问题 : 


式 中 ，N 


A; = arg max 区 +c 
































lnt 
N; (a) 





区 别 对 待 。 
首 采 用 次 数 更 少 的 动作 。 置 

















如 果 我 们 想 尝 试 每 一 个 
言 上 界 算 法 通过 改写 























(2.7) 





a) 是 动作 a 在 到 时 间 t 前 被 选择 的 次 数 ，c 是 一 个 决定 还 需要 进行 多 少 次 探索 的 正 实 


数 。 如 果 我 们 有 一 个 稳定 的 奖励 函数 分 布 ， 可 以 通过 公式 (2.7) 来 选择 动作 。 当 Ni(a) 为 零 时 ， 认 

















q 值 估算 的 不 确定 性 ; 随 着 a 








被 选择 的 次 数 增加 ， 它 上 








为 动作 a 有 最 大 值 。 为 了 更 好 地 了 解 置信 上 界 算法 的 具体 运作 方式 ， 


平方 根 项 反映 了 我 们 对 a 的 

















的 不 确定 性 也 在 减 小 。 同 样 地 ， 当 除 a 





外 的 








动作 被 选择 后 ， 不 确定 性 就 变 大 了 ， 因 为 Int 增 大 但 是 Ni(a) 保持 不 变 。t 的 自 

















时 间 步 的 影响 越 来 越 小 。 置 信 














2.2.3 wine Sea 


上 界 算法 给 出 动作 q 值 的 上 限 ， 而 


























随机 MAB 的 回报 函数 是 











成 立 。 因 此 ,在 奖励 函数 不 再 简 简单 















































地 












































决定 的 情况 F, 我 们 
博 机 的 情景 中 ， 第 ; 
SAE l € {1,2 , K} 


ri E 
































只 手臂 在 时 间 上 上 的 奖励 为 Ri € [0,1]. 





有 人 可 能 会 想 ， 








万 一 对 抗 者 干脆 把 所 有 的 奖励 都 设 为 0 了 























可 以 得 到 任何 的 奖励 。 事实 上 ， 就 算 对 抗 者 可 以 自由 决定 奖励 的 多 少 ， 
反之 给 玩家 足够 多 的 奖励 作为 诱惑 ， 让 他 们 有 赢 的 感觉 ,但 是 其 实 玩 了 许多 轮 后 ， 最 终 还 


为 0， 
是 对 抗 者 获 利 。 
算法 2.4 ROM DLE BENE 














而 对 抗 者 会 决定 在 这 个 时 刻 的 奖 
了 可 能 观测 到 每 一 个 机 器 的 奖励 Ry (-) 0 
一 个 对 抗 者 到 底 对 一 个 玩家 之 前 的 动作 选择 了 解 多 少 。 








奖励 Rit, th 




















多 的 利益 根据 玩家 的 动作 来 











者 (Oblivious Adversary) , | 
Adversary)。 第 二 点 是 一 个 玩 
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个 确 


如 果 我 们 有 
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定性 玩家 ’ 或 


2 ob 


ZR He 


健忘 对 抗 者 和 非 健忘 对 抗 者 的 























c 表示 

















然 对 数 使 得 新 的 
置信 程度 。 



































随时 间 不 变 的 概率 分 布 来 表示 的 ,但 是 在 现实 中 , 这 个 条 件 往往 不 
些 稳定 概率 分 布 决定 ， 而 
RMS SEIL (Adversarial Multi-Armed Bandit)。 在 对 抗 多 辟 赌 
同时 一 个 玩家 在 t 时 所 拉 的 手 辟 会 被 











一 个 对 抗 者 (Adversary) 












































Ne? 如 果 这 种 情况 发 生 ， 就 没有 人 

















也 不 会 把 所 有 的 奖励 都 设 
































十 机 的 基本 设 定 。 在 每 一 个 时 间 步 上 ， 智 能 体 都 会 选择 一 只 手臂 h, 
励 值 向 量 玉 , 。 这 个 智能 体 有 可 能 只 能 观测 到 它 所 选择 的 手臂 的 




































































分 两 点 来 完 
这 个 很 重要 ， 对 抗 者 可 





整 描述 这 个 问题 。 第 一 点 是 ， 
能 会 为 了 获得 更 


























峰 整 机 器 。 我 们 将 那些 不 考虑 过 去 玩家 历史 的 对 抗 者 叫 作 健 志 对 抗 
i 将 那些 考虑 过 去 历史 的 对 抗 者 叫 作 非 健忘 对 抗 者 (Non-Oblivious 
够 了 解 到 奖励 值 向 量 的 多 少 内 容 。 我 们 将 那些 玩家 知道 关于 奖 
励 值 向 量 的 全 部 信息 的 情况 叫 作 全 信息 博弈 〈Full-Information Game)， 而 将 那些 玩家 只 知道 一 部 
分 回报 向 量 信息 的 情况 叫 作 部 分 信息 博弈 (Partial-Information Game) 
DXA, 只 对 一 个 非 确定 性 (Non-Deterministic ) 玩家 才 显 现 出 来 。 



































个 玩家 的 策略 不 变 , 一 个 对 抗 直 




















就 很 容易 让 后 悔 值 RE 2 n/2, 




















2.2 在 线 预测 和 在 线 学 习 















































其 中 交代 表 这 个 玩家 下 拉手 臂 的 次 数 。 所 以 , 全 信息 非 确定 性 玩家 更 有 研究 价值 , 可 以 使 用 Hedge 























算法 来 解决 这 个 问题 。 


算法 2.4 对 抗 多 臂 赌博 机 








初始 化 KK 手臂 


fort = 1,2,--- 





T do 











智能 体 在 K 只 手臂 当 中 选中 
对 抗 者 选择 一 个 奖励 值 向 量 R, = (R1, R?,---, RK)€l[0,1]* 




















智能 体 观察 到 奖励 RE (根据 具体 的 情况 也 有 可 能 看 到 整个 奖励 值 向 量 


end for 












































al 





























在 算法 2.5 中 ， 我 们 首先 把 每 只 手臂 的 函数 G 都 设 为 零 ， 然 后 使 用 Softmax 来 获得 一 个 新 

















动作 的 概率 密度 函数 (Probability Density Function)» n 是 一 个 用 来 控制 温度 的 正 值 参数 。G 函数 























更 新 是 通过 把 所 有 的 手臂 的 新 奖励 值 都 加 起 来 ， 从 而 使 有 最 高 奖励 值 的 手臂 有 最 大 的 概率 被 选 ! 
BJ. 我们 把 这 个 算法 叫 作 Hedge. Hedge 也 是 部 分 信息 博弈 方法 的 一 个 基础 。 如 果 我 们 把 一 个 智能 



























































































































































体 的 观察 局 限 到 只 有 刀 :， 那 么 就 需要 把 奖励 标量 扩展 成 一 个 向 量 ， 这 样 它 才 可 以 被 Hedge 使 用 。 


















































探索 和 利用 的 指数 加 权 算 法 (Exponential-Weight Algorithm for Exploration and Exploitation，Exp3 ) 
即 为 一 个 基于 Hedge 来 解决 不 完全 信息 博 弃 的 算法 。 它 进一步 利用 了 p(t) 和 平均 分 布 《Uniform 





Distribution) 





et al., 1995) ! 

































































的 结合 来 确保 所 有 的 机 器 都 会 被 选 到 ， 达 到 了 平衡 探索 和 利用 的 目的 。 文 献 (Auer 
有 关于 探索 和 利用 的 指数 加 权 算 法 更 详尽 的 介绍 






































算法 2.5 针对 











对 抗 多 臂 赌博 机 的 Hedge 算法 
ae 





初始 化 K H3 





kt 


局 


月 
i dort me | OK 


fort — 1,2,- 


TP do 








智能 体 从 t) 分 布 中 选择 A, = ip, n 





exp(Gi(t — 1)) 
35$ exp(nG;(t — 1)) 





pi(t) = 


智能 体 观 测 到 奖励 ge 


让 G;,(t) 


end for 


= G(t — 1) + gi, Vi € [1, K] 





2.2.4 ”上下文 赌博 机 


上 下 文 赌博 机 (Contextual Bandit) 有 的 时 候 也 被 叫 作 关联 搜索 (Associative Search) 任务 。 我 
们 把 关联 搜索 任务 和 非 关 联 搜 索 (Non-Associative Search) 任务 放 在 一 起 ， 以 更 好 地 了 解 它 们 的 
意义 。 我 们 刚刚 所 描述 的 多 辟 赌 博 机 就 是 一 个 非 关 联 搜索 任务 。 当 一 个 任务 的 奖励 函数 是 稳定 的 


















































51 


第 2 章 强化 学 习 入 门 











时 候 ， 我 们 只 需要 找到 那个 最 好 的 动作 。 当 一 个 任务 是 不 稳定 的 时 候 ， 我 们 就 需要 把 它 的 变化 记 
录 下 来 ， 这 个 是 非 关 联 搜索 任务 的 范畴 。 对 于 强化 学 习 问 题 ， 事 情 会 变 得 复杂 很 多 。 假 设 有 几 个 
多 臂 赌博 机 任务 ， 我 们 需要 在 每 一 个 时 间 点 来 选择 其 中 的 一 个 任务 。 虽 然 我 们 仍然 可 以 估算 奖励 
的 期 望 值 ， 得 到 的 表现 未 必 会 达到 最 优 。 在 这 种 情况 下 ， 我 们 最 好 把 一 些 特征 和 赌博 机 已 经 学 习 
到 的 奖励 期 望 值 联 系 起 来 。 试 想 一 下 ， 如 果 每 一 个 机 器 在 不 同时 间 都 有 一 个 LED 灯 来 发 出 不 同 
颜色 的 灯光 ， 如 果 当 赌博 机 亮 红 灯 时 总 是 比 亮 蓝 灯 时 给 出 更 大 的 奖励 值 ， 那 么 我 们 就 可 以 把 这 些 
信息 和 动作 选择 策略 联系 起 来 辅助 动作 选择 ， 即 可 以 选择 那些 红 灯 亮 得 更 多 的 机 器 。 

上 下 文 赌博 机 是 介 于 多 臂 赌 博 机 和 完整 的 强化 学 习 两 者 之 间 的 问题 。 它 和 多 臂 赌 博 机 有 很 多 
类 似 点 ， 比 如 它们 的 动作 都 只 影响 立即 奖励 (Immediate Reward)。 上 下 文 赌博 机 也 和 完整 强化 学 
习 设 置 类 似 ， 因 为 两 者 都 需要 学 习 一 个 策略 函数 。 如 果 要 把 一 个 上 下 文 赌博 机 变 成 一 个 完整 的 强 
化 学 习 任 务 ， 那 么 动作 将 不 只 是 影响 立即 奖励 ， 也 会 影响 未 来 的 环境 状态 。 



































































































































































































































2.3 ”马尔 可 夫 过 程 


2.3.1 简介 





马尔 可 夫 过 程 (Markov Process, MP) 是 一 个 具备 马尔 可 夫 性 质 (Markov Property) 的 离散 随 
机 过 程 (Discrete Stochastic Process)。 图 2.4 展示 了 一 个 马尔 可 夫 过 程 的 例子 。 每 个 圆圈 表示 一 个 
状态 ， 每 个 边 〈 箭 头 ) 表示 一 个 状态 转移 (State Transition )。 这 个 图 模拟 了 一 个 人 做 两 种 不 同 的 
任务 〈Tasks)， 以 及 最 后 去 床上 睡觉 的 这 样 一 个 例子 。 为 了 更 好 地 理解 这 个 图 ， 我 们 假设 这 个 人 
当前 的 状态 是 在 做 “Task1” 他 有 0.7 的 概率 会 转 到 做 “Task2” 的 状态 ; 如 果 他 进一步 从 “Task2” 
以 0.6 的 概率 跳 转 到 “Pass” 状 态 ， 则 这 个 人 就 完成 了 所 有 任务 可 以 去 睡觉 了 ， 因 为 “Pass” 到 
“Bed” 的 概率 是 1。 

图 2.5 用 概率 图 模型 (Probabilistic Graphical Model) 来 表示 马尔 可 夫 过 程 ， 后 面 的 章节 会 经 
营 使 用 这 种 表达 方式 。 在 概率 图 模型 中 ， 本 书 统一 使 用 圆 形 来 表达 变量 ， 单 向 箭头 来 表达 两 个 变 
量 的 关系 。 例 如 ,“a 一 5” 表示 的 是 变量 ! 依赖 于 变量 a。 空白 圆 形 中 的 变量 表示 一 个 常规 变量 ， 
而 有 阴影 圆 形 的 变量 表示 一 个 观测 变量 (Observed Variable) (这 在 随后 的 2.7 75 Eg Fr Plea), W 
测 变量 可 以 为 其 他 常规 变量 的 推理 过 程 提 供 了 信息 。 包 含 一 些 变量 圆圈 在 内 的 实体 黑色 方 框 表 本 
这 些 变量 是 重复 的 ， 同 样 可 以 在 随后 的 图 片 中 看 到 。 概 率 图 模型 可 以 帮助 我 们 对 强化 学 习 中 变量 
关系 有 更 直观 的 理解 ， 以 及 在 我 们 对 治 着 MP 链 的 不 同 变量 求 导 梯度 时 提供 细致 的 参考 。 

马尔 可 夫 过 程 基于 马尔 可 夫 链 (Markov Chain) 的 假设 ， 下 一 状态 Sai 只 取决 于 当前 状态 
5S;。 一 个 状态 跳 转 到 下 一 状态 的 概率 如 下 : 
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p(Si1|S:) = p(St+1lS0, $1, S2, , St) (2.8) 
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图 24 马尔 可 夫 过 程 例子 。s 表示 当前 状态 ， 箭 头 上 的 数值 表示 从 


p(S:|S:—1) p(Sui|S:) 






































这 个 式 子 描述 了 “无 记忆 的 (Memoryless)” 的 特性 ， 即 马尔 可 夫 链 上 























Property ) o 如 果 p(Si42 一 s! $4 一 5) = p(Sr44 = s'|S, 一 5) xT 


























Chain). 
我 们 也 常用 s' 来 表示 下 一 个 状态 ， 在 一 个 时 间 同 质 马 尔 可 夫 链 ! 
时 间 t 十 1 的 状态 s^ 的 概率 满足 : 











p(s'|s) = p(St41 = s'|S, = s) 








个 状态 转移 到 另 一 个 状态 的 


图 25 ”马尔 可 夫 过 程 的 概率 图 模型 ，t 表示 时 间 步 ，p(S441|S4) 表示 状态 转移 概率 


SSAA ATER (Markov 


E 意 时 间 步 +t 和 所 有 可 能 状态 
成 立 ， 那 么 它 是 一 个 沿 时 间 轴 的 稳定 转移 函数 (Stationary Transition Function )， 称 为 时 间 同 质 性 
CTime-Homogeneous)， 而 相应 的 马尔 可 夫 链 为 时 间 同 质 马尔 可 夫 链 CTime-Homogeneous Markov 











, TERS TA] t 

















| 状态 s 转移 到 








(2.9) 


时 间 同 质 性 是 对 本 书 中 大 多 数 推导 的 一 个 基本 假设 ， 我 们 在 后 续 绝 大 多 数 情况 中 默认 满足 
这 一 假设 而 不 再 提 及 。 然 而 ， 实 践 中 ， 时 间 同 质 性 可 能 不 总 是 成 立 的 ， 尤 其 是 对 非 稳 定 的 CNon- 
Stationary) 环境 、 多 智能 体 强化 学 习 (Multi-Agent Reinforcement Learning) 等 ， 而 这 些 时 候 会 涉 





























及 时 间 不 同 质 (Time-Inhomogeneous〉 的 情况 。 

















给 定 一 个 有 限 的 状态 集 (State Set) S， 我 们 有 一 个 状态 转移 矩阵 (State Transition Matrix) P. 
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比如 ， 图 2.4 例子 中 对 应 的 已 如 下 所 示 : 





01.09 0 0 Ofr 














其 中 P; 是 当前 状态 S; 到 下 一 状态 5; 的 转移 概率 。 例 如 ， 图 2.4 中 状态 s =r ean 
s= t A 0.1 的 概率 ， 跳 转 到 状态 s = to 的 概率 为 0.9。P 是 一 个 方 矩 阵 ， 每 一 行 的 和 为 1。 
个 转移 概率 矩阵 表示 整个 转移 过 程 是 随机 的 《Stochastic)。 马 尔 可 夫 过 程 可 以 用 一 1 puisse 
< S, P >。 现 实 中 的 很 多 简单 过 程 可 以 用 这 样 一 个 随机 过 程 来 近似 ， 而 这 也 正 是 强化 学 习 方法 的 
基础 。 数 学 上 来 说 ， 下 一 时 刻 状态 可 以 从 P 中 采样 ， 如 下 : 
















































































SE Ps. (2.10) 
其 中 符号 ~ 表示 下 一 个 状态 S441 是 随机 地 从 类 别 分 布 CCategorical Distribution) Ps, HÆ 
单 得 到 的 。 
对 于 状态 集合 无 限 大 的 情况 (例如 说 状态 空间 是 连续 的 )， 一 个 有 限 的 矩阵 无 法 完整 地 表达 
这 样 状态 转移 的 关系 。 因 此 可 以 使 用 转移 函数 pz(s|s)， 其 与 有 限 状态 时 的 转移 矩阵 有 对 应 关系 ， 
如 p(s'|s) = Pss 
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2.3.2 马尔 可 夫 奖 励 过 程 


在 马尔 可 夫 过 程 中 ， 虽 然 智 能 体 可 以 通过 状态 转移 珑 阵 Poo = p(s'|s) 来 实现 与 环境 的 交 
H, 但 是 马尔 可 夫 过 程 并 不 外 a 为 了 提供 反馈 ， 马 尔 可 夫 奖 励 过 程 
(Markov Reward Process, MRP) 把 马尔 可 夫 过 程 从 < S, P > 拓展 到 < S,P,R,y>. HH nil 
7 分别 表示 奖励 函数 (Reward Function) 和 奖励 折扣 因子 (Reward Discount Factor). Él 2.6 是 一 
个 马尔 可 夫 奖 励 过 程 的 例子 。 图 2.7 是 马尔 可 夫 奖 励 过 程 的 图 模型 ， 奖 励 函 数 取 决 于 当前 的 状态 : 



















































































= R(S;) (2.11) 
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圭一、 











图 26 马尔 可 夫 奖 





MUWF: s 

















Reward ), 箭头 边 上 的 数值 





























x 
为 了 更 好 地 理解 奖励 


在 这 个 模型 中 ， 












































会 损失 值 为 2 的 立即 














是 状态 的 函数 , 我 们 看 看 如 下 的 例子 。 妇 
体 可 以 获得 的 立即 奖励 为 10， 休 息 Rest) 能 获得 立即 奖励 为 1， 但 如 果 智 能 体 执行 任务 (Task) 
奖励 。 给 定 一 个 轨迹 T 上 每 个 时 间 步 的 立 上 只 





724 
示 从 一 个 状态 到 另 一 个 状态 的 概率 
Sta S, © 
P(Si|St-1) P(St41| St) 
图 27 马尔 可 夫 奖励 过 程 的 图 模型 


























前 的 状态 , 7 表示 每 一 个 状态 的 立即 奖励 ( Immediate 
































de 

















励 仪 取决 于 当前 状态 , 而 当前 状态 是 基于 之 前 状态 和 之 前 动作 产生 的 结果 。 























<4 














果 智 能 体能 通过 (Pass) 





智能 


考试 ， 








奖励 >， 回报 (Return) 是 一 个 





轨迹 的 累积 奖励 (Cumulative Reward)。 严 格 来 说 ， 非 折扣 化 的 回报 〈Undiscounted Return) 在 一 




















AT WTP IRA BR SERE! 























的 值 如 下 : 


























Gt=0:T R(T) 





H 








(g, ti, ta, p, b) 的 非 折扣 化 的 





其中 Ri 是 t 时 刻 的 立即 奖励 ，T 是 最 终 状态 的 步 数 ， 或 者 是 整个 片段 的 步 数 ， 


(2.12) 


pun, Su 














报 是 5 二 一 1 一 2 一 2 十 10。 需 要 注意 的 是 ， 





些 文献 使 用 








G 来 表示 
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回报 ， 而 用 尺 来 表示 立即 奖励 ， 但 在 本 书 中 ， 我 们 用 




















R KERAK (Reward Function). 


此 ， 在 本 书 中 Ri = R(S,) 是 时 间 步 t 时 候 的 立即 奖励 ， 而 R(7) = Gt=0:7 表示 长 度 为 了 的 轨迹 




















Tor 的 回报 ，7 是 立即 奖励 的 通用 表达 。 











通常 来 说 ， 距 离 更 近 的 时 间 步 比 相对 较 远 的 时 间 步 会 产生 更 大 的 影响 。 这 是 
回报 (Discounted Return) 的 概念 。 折 扣 化 








大 的 权重 。 定 义 折 扣 化 回报 如 下 : 






































T 
Gi=0:T = R(T) = Nw 
t 一 0 























EE 我们 介绍 折扣 化 
报 是 奖励 值 的 加 权 求 和 ， 它 对 更 近 的 时 间 步 给 出 更 








(2.13) 


其 中 奖励 折扣 因子 (Reward Discount Factor) y € [0, 1] 被 用 来 实现 随 着 时 间 步 的 增加 而 减 




















小 权重 值 。 举 例 来 说 ， 图 2.6 中 ， 当 y = 0.9， 且 轨迹 为 (g, t1, t2, p, b) A 
—1 — 2 x 0.9 一 2 x 0.9? 十 10 x 0.93。 如 果 
非常 “短视 ”。 如 果 y = 1， 就 是 非 折 扣 化 的 















































报 。 当 处 理 





y=0， 则 回报 值 只 与 当前 的 立即 奖 









































非常 关键 ， 因 为 它 能 避免 回报 值 随 着 时 站 





























程 是 可 评估 的 。 









































ERK MRP fi 























{RA 2.87 = 





励 有 关 ， 智 能 体会 
况 时 ， 这 个 折扣 因子 会 
无穷 而 增 大 到 无 穷 ， 从 而 使 得 无 限 长 MRP 过 

















对 折扣 因子 的 另 一 个 理解 角度 是 : 为 了 简便 ， 奖 励 折 扣 因 子 y 有 时 在 文献 (Levine, 2018) 














































































































相应 的 价值 函数 写 为 V7(s): 














V"(s) = 
































为 了 描述 方法 ， 我 们 只 采样 4 个 轨迹 ): 
s = (t2,b), R = —2 + 0 x 0.9 = —2 




















中 的 离散 时 间 有 限 范围 MRP 的 情况 下 被 4 
中 ， 通 过 直接 修改 转移 动态 函数 来 使 得 任何 产 4 
都 有 概率 1 一 yY， 而 其 他 标准 的 转移 概率 都 乘 以 yo 

价值 函数 (Value Function) V(s) 是 状态 s 的 期 望 回 报 (Expected Return). 。 举 例 来 说 ， 如 果 
下 一 步 有 两 个 不 同 的 状态 S1 和 5。， 基 于 当前 策略 订 


能 体 的 策略 通常 是 选择 价值 更 高 的 状态 作为 下 一 步 。 如 果 智 能 体 的 行动 基于 某 种 策略 +， 我 们 把 






































以 








+ 去， 而 这 时 折扣 因子 也 可 以 到 


EF 估 它们 的 价值 分 别 为 V7(51) 和 Yr(52)。 智 























Er[R(r)lso = s] 


对 于 状态 s 而 言 ， 它 的 价值 是 以 它 为 初始 状态 下 回报 的 期 望 ， 而 这 个 期 望 是 对 策略 oo 给 出 
的 轨迹 所 求 的 。 一 种 估计 价值 V(s) 的 简单 方法 是 蒙特 卡 罗 法 ， 给 定 
BIERE P 随机 采样 大 量 的 轨迹 ， 来 求 近似 期 望 。 
V7(s = t2)? 我 们 可 以 如 下 随机 采样 出 4 个 轨迹 《注意 ， 实 际 中 采样 的 轨迹 要 远大 于 4， 但 这 上 








e s =(to,p,b), R= —2 + 10 x 0.9 + 0 x 0.92 =7 


( 
e s = (t2,r,t2,p,b), R = —2 + 1 x 0.9 — 2 x 0.92 + 10 x 0.95 +0 x 0.94 = 4.57 
( 

















E 解 为 被 并 入 了 动态 过 程 
转移 至 一 个 吸收 状态 CAbsorbing State) 的 动作 





























(2.14) 





一 个 状态 s， 我 们 用 状态 转 
图 2.6 为 例 ， 给 定 y = 0.9 和 P, wiit 




















na 





e 8 = (to,7,t1,t2,b), R= —2 + 1 x 0.922 x 0.9? — 2 x 0.99 + 0 x 0.94 = —0.178 
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给 定 这些 s = to 为 初始 状态 的 轨迹 ， 我 们 可 以 计算 每 个 轨迹 的 回报 RRB， 然后 估计 出 状态 
s 二 了 刀 的 期 望 回报 V (s = t2) = (12 + 7 + 4.57 — 0.178)/4 = 2.348， 作 为 状态 s = to 的 价值 衡量 。 
图 2.8 用 这 个 方法 估算 出 每 个 状态 的 期 望 回 报 。 给 定 这 些 期 望 回 报 ， 一 个 最 简单 的 智能 体 策 
略 是 每 一 步 都 往 期 望 回报 更 高 的 状态 移动 。 这 样 所 产生 的 动作 就 是 最 大 化 期 望 回报 ， 见 图 2.8 的 
虚线 箭头 。 除 了 蒙特 卡 罗 方 法 , 还 有 很 多 方法 可 以 用 来 计算 V(s), 比如 贝尔 曼 期 望 方程 (Bellman 
Expectation Equation )、 逆 和 矩阵 方法 〈Inverse Matrix Method) 等 ， 我 们 将 会 在 稍 后 逐一 介绍 。 
















































































































































































图 28 马尔 可 夫 奖 励 过 程 和 价值 估计 函数 VY(s): 每 个 状态 都 随机 采样 4 个 轨迹 ， 用 蒙特 卡 罗 方 
法 估算 每 个 状态 的 价值 。 虚 线 箭 头 表示 学 习 出 的 简单 策略 ， 则 智能 体 往 价值 更 高 的 状态 
移动 

















2.3.3 马尔 可 夫 决 策 过 程 

马尔 可 夫 决 策 过 程 (Markov Decision Process, MDP) 从 20 世纪 50 年 代 已 经 开始 被 广泛 地 
研究 ， 在 包括 经 济 、 控 制 理论 和 机 器 人 等 很 多 领域 都 有 应 用 。 在 模拟 序列 决策 过 程 的 问题 上 ， 马 
尔 可 夫 决 策 过 程 比 马 尔 可 夫 过 程 和 马尔 可 夫 奖 励 过 程 要 好 用 。 如 图 2.9 所 示 ， 和 马尔 可 夫 奖 励 过 
程 不 同 的 地 方 在 于 ， 马 尔 可 夫 奖 励 过 程 的 立即 奖励 只 取决 于 状态 (奖励 值 在 节点 上 )， 而 马尔 可 
夫 决 策 过 程 的 立即 奖励 与 状态 和 动作 都 有 关 〈 奖 励 值 在 边 上 )。 同 样 地 ， 给 定 一 个 状态 下 的 一 个 
动作 ， 马 尔 可 夫 决 策 过 程 的 下 一 个 状态 不 一 定 是 固定 唯一 的 。 举 例 来 说 ， 如 图 2.10 所 示 ， 当 智能 
体 在 状态 s = to 时 执行 休息 Gest) 动作 后 ， 下 一 时 刻 的 状态 有 0.8 的 概率 保留 在 状态 s = to F, 
有 0.2 RREN s = tio 
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a 
NG 
a= work = play a = sleep dM 


a = work 








29 ”马尔 可 夫 决 策 过 程 例子 。 在 马尔 可 夫 奖 励 过 程 中 ， 立 即 奖 励 只 与 状态 有 关 。 而 马尔 可 夫 
决策 过 程 的 立即 奖励 与 状态 和 动作 都 有 关 





A 
































P(St|St-1, Aii). P(St+ilSt, At) 

















A210 马尔 可 夫 决 策 过 程 的 图 模型 : t 表示 时 间 步 ，p(At|51) 表示 根据 当前 状态 S 选择 的 动作 
A, EE, p(St41|S:, Ar) 是 基于 当前 状态 和 动作 下 的 状态 转移 概率 。 虚 线 表 示 智 能 体 
的 决策 i 过 程 E 












































之 前 说 过 ， 马 尔 可 夫 过 程 可 以 看 成 一 个 元 组 <S, P>， 而 马尔 可 夫 奖 励 过 程 是 <S, P, R, 9>, 
其 中 状态 转移 矩阵 的 元 素 〈Element) 值 是 P. e = p(s'|s)。 这 个 表示 将 有 限 维 (Finite-Dimension ) 
状态 转移 矩阵 拓展 成 无 穷 维 (Infinite-Dimension ) 概率 函数 。 这 里 , 马尔 可 夫 决 策 过 程 是 <S, A, P, 
R,y>> 其 状态 转移 年 阵 的 元 素 变 为 































































































p(s'|s,a) = p(Si41 = s'|Sy = s, A, = a) (2.15) 
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2.3 马尔 可 夫 过 程 














例如 图 2.9 中 很 多 状态 转移 概率 为 1， 比如 p(s’ = te|s = t1,a = work) = 1; 但 是 也 有 一 些 不 
是 ， 比 如 p(s’|s = to,a = rest) = [0.2,0.8]， 它 表示 的 是 ， 如 果 智 能 体 在 状态 s = to 下 执行 动作 
a 二 rest, EA 0.2 的 概率 会 跳 到 状态 s' =t1, MA 0.8 的 概率 会 保持 原来 的 状态 。 那 些 不 存在 的 
边 代 表 转 移 概 率 为 0， 比 如 p(s’ = to|s = t1,a = rest) = 0. 


A 表示 有 限 的 动作 集合 (Finite Action Set) {ai,az,……}， 则 立即 奖励 变 成 



















































































Ri = R(S,, Ai) (2.16) 























一 个 策略 〈Policy) 表示 智能 体 根据 它 对 环境 的 观测 来 行动 的 方式 。 具 体 来 说 ， 策 略 是 从 每 
一 个 状态 ss S 和 动作 a € A 到 动作 概率 分 布 r(als) 的 映射 ， 这 个 概率 分 布 是 在 状态 s 下 采取 动 
作 a 的 概率 ， 可 以 写 为 

















m(als) = p(A; = alS; = s),3t (2.17) 














WEHR (Expected Return) 是 在 一 个 策略 下 给 定 所 有 可 能 轨迹 的 回报 的 期 望 值 ， 强 化 学 习 
的 目的 就 是 通过 优化 策略 来 使 得 期 望 回报 最 大 化 。 数 学 上 来 说 ， 给 定 起 始 状态 分 布 po 和 策略 r 
马尔 可 夫 决 策 过 程 中 一 个 全 步 长 的 轨迹 的 发 生 概 率 是 : 















































T-1 
p(r|v) = po(So) II p(SirilSe, Ao) (Adi) (2.18) 


t=0 


给 定 奖 励 函 数 及 和 所 有 可 能 的 轨迹 r， 期 望 回报 J(r) 可 以 定义 为 























I(n) = ji plr|n) R(r) = Exam [R(r) (2.19) 


T 


























p 表示 轨迹 发 生 的 概率 ， 发 生 概率 越 高 ， 则 对 期 望 回报 计算 的 权重 越 大 。 强 化 学 习 优 
化 问题 (RL Optimization Problem) 通过 优化 方法 来 提升 策略 ， 从 而 最 大 化 期 望 回报 。 最 优 策 略 
(Optimal Policy) «* 可 以 表示 为 
































T* = arg max J (r) (2.20) 


























* 符号 在 本 书 中 表示 “最 优 的 ”含义 。 


给 定 一 个 策略 +， 价值 函数 V(s)， 即 给 定 状 态 下 的 期 


























Zu 
E 
i 





回报 ， 可 以 定义 为 








V"(s) =Er~x[R(7T)|So = s] 
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xk ER 


于 一 个 4 





然而 实际 





二 利 

















其 中 7 和 ~ 7 表示 轨迹 7 是 通过 策略 x XR 























^ Aceem (|S) 























我 





xn 





在 马尔 可 夫 决 策 过 程 ， 
0 刚刚 执行 的 动作 ， 是 基于 状态 和 动作 的 期 望 回 报 。 如 
则 把 动作 价值 函数 写 为 Q"(s, a)， 














我 











有 两 种 简 和 


得 到 的 《如 果 


于 状态 包 


策略 是 有 随机 性 的 )， 下 一 个 状态 取 坟 























Q" (s, a) = 


门 需 要 记 住 的 是 ，Q@r(s, a) eS 

















， 给 





Ek 
































t=0 




















q«(s,a) = 






































方法 














简 








日 
A 








方法 来 计算 价 
haustive method)， 如 公式 (2.18 


用 公式 (2.21) 和 (2.22) 来 计算 H 


起 于 策略 T 



































Un (s) 





Eus |R(T)|So 


m 


hj 








定义 为 


tra [R(T)|So = s, Ag = a] 





来 估计 的 ， 基 








HTJ, At ~ Th- 


5 y R(S;, At)|So = | 


t=0 








于 状态 转移 外 

















果 一 个 














Ar~ (|S) So RS, At)|So = s, Ao =a 


为 对 值 的 估计 是 策略 oo 所 决定 的 轨 




















(2.21) 


St) 表示 动作 是 在 一 个 状态 下 从 
E 阵 P 及 其 状态 Fil 





定 一 个 动作 ， 就 有 动作 价值 函数 (Action-Value Function», XX 
智能 体 根 据 策 略 x 


(2.22) 











行 区 分 。 


Bann [qs (s, a)] 














) 所 示 ， 首 





期 望 。 也 就 是 说 ， 如 果 策 略 改变 了 ，Q@Qr(s,a) 也 会 相应 地 跟着 改变 。 
竺 定 策略 估计 的 价值 函数 为 在 线 价值 函数 “On-Policy Value Function), X- 
计 的 最 优 价值 函数 (Optimal Value Function) 进 


这 个 状态 的 V"™(s) 和 Q" (s, a)。 每 个 状态 都 用 穷 闻 





， 可 能 的 轨迹 数量 是 非常 大 的 ， 


使 用 之 前 介绍 的 蒙 
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至 是 无 穷 个 的 。 


大 




































































此 除了 


特 卡 罗 方 法 通过 采样 大 量 的 轨迹 来 估计 V" (s). 
， 但 都 有 各 自 的 缺点 。 而 实际 上 ， 估 计价 值 函 数 的 公式 可 以 根据 马尔 可 夫 性 质 做 进一步 的 简 


化 ， 即 下 一 小 节 要 介绍 的 贝尔 曼 方程 。 





K| 








此 我 们 通 








常 称 基 





























策略 佑 








最 人 








门 可 以 发 现价 值 函 数 wr(s) 和 动作 价值 函数 qu (s, a) 之 间 有 如 下 关系 : 


时 函数 os (s) 和 动作 价值 函数 qr(s,a): 第 一 种 方法 是 
先 计 算出 从 一 个 状态 开始 的 所 有 可 











能 轨迹 的 概率 ， 然 后 


(2.23) 
(2.24) 


ASIE Cex- 


zs 
力 

















法 




















来 单独 计算 。 





























使 用 所 有 可 能 的 轨迹 ， 第 





这 两 利 


方法 都 非常 


2.3 


马尔 可 夫 过 程 





* 


2.3.4 ”贝尔 曼 方 程 和 最 优 性 


贝尔 曼 方 程 


pu 
数 在 策略 指引 下 所 


























采 轨 迹 上 的 





^K & J; f£ (Bellman Equation) ， 也 称 为 贝尔 曼 期 望 方程 
期 望 。 我 们 称 之 为 “在 线 (On-Policy)” 估 计 方 法 〈 注 意 它 与 之 后 


























Ys Hs fe 








I-5 























用 于 计算 


£r XE HR 











v 时 价值 函 














rar [R(T)|So = s] 





的 在 线 策略 和 离线 策略 更 新 区 分 ) ， 因 为 强化 学 习 中 的 策略 一 直 是 变化 的 ， 而 价值 函数 〈Value 
Function) 是 以 当前 策略 为 条 件 或 者 用 其 估计 的 。 

回想 状态 价值 函数 或 动作 价值 函数 (Action-Value Function) 的 定义 , 即 un (s) = 
和 gr(s,a) = Er~x[R(7T)|So = 5, Ao = qj， 我 们 可 以 利用 递归 关系 得 


Policy State-Value Function) 的 贝尔 曼 方 程 : 














tant (:|s),s'~pC]s,a) 





x 
"aeem (-|s),s' ep] s;a) 








| 
| 
| 
| 


























Lacon C18), s plssa) [T 








在 时 间 步 二 上 的 表示 。 在 上 面 的 一 些 公式 : 








地 展示 期 望 是 关于 


上 式 最 后 一 个 等 式 成 立 ， 是 因为 s, a 是 对 状态 和 到 


Ri 
Ri 
bans),s psa) LP 
Y Aere (4S2) Sei po Se Ac) P TY 


i Acn (4S0), Sea p Se A) HU + Yos (S143)| S: = 5] 





sanity op Ctsa) R(t: T)|$: = = s] 
+ Rigi t+ Y Ras 














+ (Rea 
T y Ro 





1:T 

















十 Yur(s 








哪些 变量 求 得 的 。 





注意 上 面 的 推 
可 以 直接 通过 从 






































TIEF, RI 




















去 掉 动 作 来 得 到 ; 








除 上 述 外 ， 
qr(s, 4) = 














siup: 
































也 
s,a) [R(s,a) +7 


v(s) 








m 


























Barr- 



































ls [qr (s' ,0 "eI 


acm (-|s),s' e» p(-|s,a) [R(«T)| S: = $8, At = a] 


bacon (s) s^ ep (-|s,a) [Ri a 
Lacon (-|8),s' ~p(:|ssa) [Ry 了 


wp(CeI + Yu(s 





] 展 示 了 基于 MDP 的 贝尔 曼 方 程 ， 


‘)] 




















F Rega + Y! Ri» 





Fy(Ria + yRepe + 





A.) [Re + 











Si io Cl: 





J le s" p(-|,a) [Rrr] |S: = s] 


3T Rr|S: = s] 
Y Rr)|8 = s] 


MER] — RR. M Sy, ht 是 状态 和 动作 
» St, At 有 时 从 一 般 表 示 8,0 分离 出 来 ， 从 而 更 清楚 


然而 ， 对 MRP 的 贝尔 曼 方程 


于 在 线 动作 价值 函数 〈On-Policy Action-Value Function) 的 贝尔 曼 方 程 : 


可 以 通过 如 下 推导 得 到 : 


HEIRS (ERZ COn- 


Bawa(-|s),8’~p-ls,a) Rrerir]lSt = 5] 


(2.25) 


只 











(2.20) 





yTRr|S: = s, A, = a] 
ty? 1 Ry)|S. = 8, A = a] 
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,ivp(1S A) Pe 十 7 




















Aori~n( |S) [qr (St41, 414)][5: = s] 























































































































































































































































































































= s! e p(-|s,a) [R(s, a) ay. 4a! eem (-|s/) [a (s'; a')]] (2.27) 
上 面 的 推导 是 基于 最 大 长 度 为 了 的 有 限 MDP， 然 而 ， 这 些 等 式 对 无 穷 长 度 MDP PTBA, 只 
要 将 了 用 “coo” 替代 即 可 。 同 时 ， 这 两 个 贝尔 曼 方程 也 不 依赖 于 策略 的 具体 形式 ， 这 意味 着 它们 
对 随机 性 策略 me (|) 和 确定 性 策略 r(s) 都 有 效 。 这 里 x(:|s) 的 使 用 是 为 了 简化 。 而 且 ， 在 确定 性 
转移 过 程 中 ， 我 们 有 p(s'|s, a) = 1. 
贝尔 曼 方 程 求解 
如 果 转 移 函 数 或 转移 矩阵 是 已 知 的 , 公式 (2.26) 中 对 MRP If UJ Ria 可 以 直接 求解 , 称 为 
逆 和 矩阵 方法 (Inverse Matrix Method)。 我 们 用 矢量 形式 对 离散 有 限 状 态 空间 的 情况 将 公式 (2.26) 
改写 为 
v=rt+y7Pv (2.28) 
其 中 v Flr RE, RAJ o(s) 和 R(s) 是 对 所 有 se sH, m P EREKE, HEIA p(s’|s) 
对 所 有 s,s’ € S 成立。 
由 wv ==7 十 YPv， 我 们 可 以 直接 对 它 求解 : 
—(I—-4P)! (2.29) 
求解 的 复杂 度 是 O(n?), KP n 是 状态 的 数量 。 因 此 这 种 方法 对 有 大 量 状态 的 情况 难以 求解 ， 这 















































意味 着 它 可 能 对 大 规模 或 连续 值 问题 不 适 
模 的 MRP 问题 ， 比 如 动态 规划 (Dynamic Programming )、 蒙 特 卡 
和 时 间 差 分 NM Difference) 学 习 法 ， 这 些 方法 将 在 随后 的 小 节 : 


。 李 运 的 是 ， 有 一 些 欠 代 方法 可 以 在 实践 中 解决 大 规 
EZ {tt (Monte-Carlo Estimation) 


详细 介绍 。 



































最 优 价值 函数 


由 于 在 线 价值 函数 是 根据 策略 本 身 来 估计 的 ， 即 使 是 在 相同 的 状态 和 动作 集合 上 ， 
略 也 将 会 带 来 不 同 的 价值 函数 。 对 了 


F 所 有 不 同 的 价值 函数 ， 我 们 定义 最 优 价值 函数 为 





不 同 的 策 








同 












































uUx(5) = maxvz(s),Vs € S, (2.30) 


这 实际 是 最 优 状 态 价值 函数 (Optimal State-Value Function). 我 们 也 有 最 优 动作 价值 函数 (Optimal 


Action-Value Function ): 





02 


2.3 马尔 可 夫 过 程 





q.(s,a) = maxq,(s,a),Vs € S,a € A, 
T 


它们 之 间 的 关系 为 














qx(s,@) = E[Ri 十 Yux(9t+ijlo = s, Ae = a], 


上 式 可 以 直接 通过 对 式 (2.84) 的 最 后 一 个 等 式 最 大 化 并 代入 式 (2.24) 和 (2.30) 来 得 到 : 








q«(s, a) = E[F( 


= E[R( 












































s,a) + y max E[g,(s’, a’)]] 





5, a) + y max v; (s')] 


= E[F + v. (S41) |S: = s, At = a]. 








它们 之 间 的 另 一 种 关系 为 


























这 可 以 直接 通过 最 大 化 式 (2.24) 的 两 边 来 得 











贝尔 曼 最 优 方程 








在 上 面 小 节 中 ,我们 介绍 了 一 般 在 线 价值 函 数 的 贝尔 曼 方程 ， 以 及 最 优 价值 函数 的 定义 。 基 




































































(2.31) 


(2.32) 


(2.33) 


(2.34) 














此 我 们 可 以 在 预定 义 的 最 优 价值 函数 上 使 用 贝尔 曼 方 程 ， 这 会 得 到 贝尔 曼 最 优 方程 (Bellman 
Optimality Equation) ， 或 称 对 最 优 价值 函数 的 贝尔 曼 方 程 (Bellman Equation for Optimal Value 








Functions)， 推 导 如 下 。 





对 最 优 状态 价值 函数 的 贝尔 曼 方 程 为 














v,(s) = max 
a 














它 可 以 通过 下 面 推导 来 得 到 ; 




















Es’ p(-|s,a) [R(s, a) 本 v. (s")]; 


Ux (s) = max, sh shops [as [R(ri7)] S: xx s] 











= max Er» v.p.) [Re 4 








4 
— max n*,s'~p(-|s,a) [Ri z 





= max EJ. (sa) [Rt 4 

















- y max 
a’ 








= max E... (sa) [Rt 4 














HRe t Y! Baa o YT Rr|S = s] 
ry Rear |S = via s] 


Sr sbeupis ls,a) [BR Tt-1: 71$: = EE sj 


H Va (St+1)lSt = s] 


(2.35) 
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= max Ey.9(.|s,a)[R(s, a) + yu.(s’)] (2.36) 


a 





最 优 动 作价 值 函 数 的 贝尔 曼 方 程 为 

















q«(s, a) = Ey oc |o a) R(s, a) + y max q«(s', a/)], (2.37) 





上 式 可 以 通过 与 前 面 类 似 的 方式 得 到 。 读 者 可 以 练习 完成 这 个 证 明 。 








235 ”其 他 重要 概念 


确定 性 和 随机 性 策略 
在 之 前 的 小 节 中 ， 策 略 用 概率 分 布 r(als) = p(A: = alSt = s) 表示 ， 其 中 智能 体 的 动作 是 
从 分 布 中 采样 得 到 的 。 一 个 动作 从 概率 分 布 中 采样 的 策略 称 为 随机 性 策略 分 布 (Stochastic Policy 
Distribution)， 其 动作 为 










































































a~ n (-|s) (2.38) 





























然而 ， 如 果 我 们 减少 随机 性 策略 分 布 的 方差 并 将 其 范围 缩 窗 到 极限 情况 ， 则 将 得 到 一 个 狄 拉 
AŽ (6 函数 ) 作为 其 分 布 , 即 为 一 个 确定 性 策略 (Deterministic Policy) r(s)。 确 定性 策略 m(s) 
也 意味 着 给 定 一 个 状态 ， 将 得 到 唯一 的 动作 ， 如 下 : 


















































7 























a = n(s) (2.39) 





注意 确定 性 策略 不 再 是 从 状态 和 动作 到 条 件 概 率 分 布 CConditional Probability Distribution) 
的 映射 ， 而 是 一 个 从 状态 到 动作 的 直接 映射 。 这 点 不 同 将 导致 随后 介绍 的 策略 梯度 方法 中 的 一 些 
推导 过 程 的 不 同 。 更 多 关于 强化 学 习 中 策略 类 别 的 细节 ， 尤 其 是 深度 强化 学 习 中 的 参数 化 策略 ， 
将 在 2.7.3 节 中 介绍 。 

部 分 可 观测 马尔 可 夫 决 策 过 程 

如 前 面 小 节 中 所 述 , 当 强 化 学 习 环 境 中 的 状态 无 法 由 智能 体 的 观测 量 完全 表示 的 时 候 ,环境 是 
部 分 可 观测 的 。 对 于 一 个 马尔 可 夫 决 策 过 程 , 它 被 称 为 部 分 可 观测 的 马尔 可 夫 决 策 过 程 (Partially 
Observed Markov Decision Process，POMDP)， 而 这 构成 了 一 个 利用 不 完整 环境 状态 信息 来 改进 策 
略 的 挑战 。 

















































































































2.4 ”动态 规划 


20 世纪 50 年 代 ，Richard E. Bellman 首次 提出 动态 规划 (Dynamic Programming) 的 概念 。 随 
后 ,动态 规划 算法 被 成 功 地 应 用 到 一 系列 有 挑战 的 场景 中 。 在 “动态 规划 ”一 词 中 ,“ 动 态 ” 指 求 
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解 的 问题 是 序列 化 的 “规划 ” 指 优 
种 通用 的 求 








| 的 求解 框架 。 

















进 


状态 转移 方程 ， 但 是 在 强化 学 习 的 场景 中 ， 这 些 信息 是 很 难 被 获取 的 。 尽 管 如 此 ， 动 态 规划 依旧 


步 将 Fs DEAS Fs = Fo + Fi, 














例如 ， 在 斐 波 那 契 数列 
1 开始 。 如 第 4 个 数 Fa 可 以 写 为 前 
从 而 得 到 Fa = (Fo +F) + Fo, J 
和 Fo 表示 了 丈 。 动 态 规划 需要 知道 求解 问题 的 全 部 信 ， 














的 每 一 个 数字 























化 策略 。 动 态 规划 将 复杂 的 动态 问题 拆 解 为 子 问题 ， 提 供 了 一 
1 两 个 先前 的 数字 相 加 得 到 ， 从 0 和 
两 个 数 Fe Fo ZAI Fy = Fy + Foo CER MAH, RAITA 
Fe BATA PPAF RES Ps 





























提供 了 


问题 
题 的 





上 
Tio 














BUF 

















解 。 重 登 子 问题 是 指 子 问题 的 数 








大 








ESSO UA NM 























环境 








的 理想 化 模型 。 








2.4 


归 地 调 


策略 迭代 
策略 迭代 Policy Iteration) 的 
3 贝尔 曼 方程 来 评估 策略 : 


d 





H 





























vx (s) 

















这 上 

















Um 来 偶 心 地 执行 动作 ; 


E 


























(Overlapping Sub-Problems) 。 最 优 子 


EH 





的 在 了 


量 是 有 限 的 ， 以 及 子 问 题 递 归 
有 限 动 作 和 状态 空间 的 MDP 满足 以 上 两 个 性 质 ， 贝 尔 曼 方程 实现 了 递归 式 的 分 解 ， 价 值 
此 在 本 小 节 中 ， 我 们 假设 状态 集 和 动作 集 都 是 有 限 的 ， 并 且 有 

















结构 是 指 











地 出 现 ， 








Ur [Ri + ?ur(9 1) |S; 一 s] 


7'(s) = greedy(v,) = arg max qr (5, a). 
acA 



































的 提升 可 以 由 以 下 证 明 : 
Un(8) = qx (s, m(s)) 
qz (s. m (s)) 
= ES [Ri + War (St41) [St = s] 
< Er [Re + Yan (Sisi T (St41)) |S = 5] 
< Ej [Re + Rept + Yar (Sio, T (Si42)) [St = 5] 
< Er [Ri + yRepi Y? Riga +++ |S = 8] = ve (s). 























电 ， 例 如 ， 强 化 学 习 问 题 ; 

















的 奖励 机 制 和 











种 通过 在 马尔 可 夫 过 程 中 进行 交互 来 学 习 的 基本 思路 ， 被 大 多 数 强化 学 习 算法 所 沿用 。 

可 以 应 用 动态 规划 的 问题 必须 具备 两 个 性 质 : 最 优 子 结构 COptimal Substructure) lB BF 
个 给 定 问题 的 最 优 解 可 以 分 解 成 它 的 子 问 
使 其 可 以 被 存储 和 本 





poh 











5B 











F 直接 操控 策略 。 从 任意 策略 r 开始 ， 我 们 可 以 通过 有 递 














(2.40) 


的 期 望 是 针对 基于 环境 全 部 知识 的 所 有 可 能 的 转移 。 一 个 获得 更 好 策略 的 自然 想法 是 根据 


(2.41) 


(2.42) 
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接连 地 使 用 以 上 的 策略 评估 和 贪心 提升 ， 直 到 m = 7 形成 策略 迭代 。 一 般 地 ， 策 略 迭 代 的 
过 程 可 以 总 结 如 下 : 给 定 任 意 一 个 策略 mu TRE IER t 中 的 每 一 个 状态 s， 我 们 首先 评估 
ur,(s)， 然 后 找到 一 个 更 好 的 策略 rs+i。 我 们 把 前 一 个 阶段 称 为 策略 评估 (Policy Evaluation), 1E 
后 一 个 阶段 称 为 策略 提升 (Policy Improvement)。 此 外 ,我 们 使 用 术语 泛 化 策略 迭代 (Generalized 
Policy Iteration，GPI) 来 指 代 一 般 的 策略 评估 和 策略 提升 交互 过 程 ， 如 图 2.11 所 示 。 













































































初始 化 TU 





TU. 


图 2.11 泛 化 策略 迭代 








一 个 基本 的 问题 是 ， 策 略 迭 代 的 过 程 是 否 在 最 优 值 w 上 收敛 。 在 策略 评估 的 每 一 次 迭代 
对 于 固定 的 、 确 定性 的 策略 r， 价 值 函数 更 新 可 以 被 贝尔 曼 期 望 回溯 算 子 T7 重 写 为 


























(T*V)(s) = (R* -yP*V)(s) = Se +V(s'))P(r, s'|s, n(s)). (2.43) 


r,s! 











MAM FT HES ISOMER V A V, RIF T7 AUP AR CContraction) 证明: 























ITV (s) - TTV (s)| = | (r + WV (8) P(r, 818, m(s)) -X (r + 9V"(8')) P(r, s'|s ms) 


"d / 
T,S T,S 


= [FO V (s) - V's) P(r, s'|s, n()) 


r,s! 





< » als) - V'(s)|P(r, s'|s ms) 


和 > j9llV -Veo P(r, 8's, (5) 
= IV -= V'lleo, (2.44) 














HEME ||V — V "loo FE oo 范 数 。 通过 收缩 映射 定理 (Contraction Mapping Theorem， 即 巴 拿 赫 不 动 点 
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定理 ，Banach Fixed-Point Theorem )， 和 迭代 策略 评估 会 收敛 到 唯一 的 固定 点 本 。 由 于 TTU, = v, 
是 固定 点 ， 和 迭代 策略 评估 会 收敛 到 v- 。 需 要 指出 的 是 ， 策 略 提升 是 单调 的 ， 并 且 在 有 限 MDP ! 
的 价值 函数 只 对 应 于 有 限 个 数 的 贪心 策略 。 策 略 提升 会 在 有 限 步 数 后 停止 ， 也 就 是 说 ， 策 略 友 代 


会 收敛 到 va 0 























































































































算法 2.6 策略 迭代 
对 于 所 有 的 状态 初始 化 VV 和 7 
repeat 
// 执 行 策略 评估 
repeat 
ó —0 
for s c S do 
v + V(s) 
V(s) © X, v (r4 3V(s))P(r. sls, n()) 
ô + max(6ó, |v — V (s)|) 
end for 
until ô /- T — 1E RE 
/执行 策略 提升 
stable + true 
for s c S do 
a + t(s) 
T(s) — argmaxa >», (7 + yV(s')) P(r, s'|s, a) 
if a Z 7(s) then l 
stable + false 
end if 
end for 
until stable = true 
return 策略 7 




















2.4.2 ”价值 迭代 


价值 迭代 (Value Iteration) 的 理论 基础 是 最 优 性 原则 (Principle of Optimality )。 这 个 原则 告 
WRAHA r 取得 了 可 以 到 达 的 任何 后 续 状态 上 的 最 优 价值 时 ，7 是 一 个 状态 上 的 最 优 策 
略 。 因 此 如 果 我 们 知道 子 问题 vu (s^) 的 解 ， 就 可 以 通过 一 步 完 全 回溯 (One-Step Full Backup) 找 
到 任意 一 个 初始 状态 s 的 解 : 




















































































































.(8) = max R(s, P(s'|s, ao, (s"). 2.45 
Ux (5) max (s a7? (s'|s, a)v.(s") (2.45) 












































Af EE (RRL EEE Ei 


f] SEGUE A dg ACUGSO TAS. RAS RHE IR BÜXETI « ARIS TC 
中 的 收敛 证 明 类 似 ， 贝 尔 曼 最 
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c Rn QE c M S (2.46) 








这 也 是 对 于 任意 价值 函数 了 和 V" 的 收缩 映射 : 


























IT*V (s) - T*V'(s)] 


R(s,a)+7 5 P(s'|s, a)V'(s^) 
stes 


Rí(s,a) 4- y 5 P(s'|s, a)V (s) 


B 
s'cS 


— max 
ac acA 

















< max|R(s,a) +7 D> P(s!|s,a)V(s!) — R(s,a) - D> P(s'|s,a)V"(s! 
E s'cS siES 





= max y XS P(s'ls,a)(V(s!) VC) 
s'es 








< P(s! Ne 
max V. P(s'|s,a)|V(s!) — V'(s?) 


s'cS 
< / oy! 
< maxy 5 , P(s'|s,a)||V Vl 

s'ES 
_ oy! / 
= lV V'|loo max >, P(s'|s,a) 

s'cS 

= lV — V" las. (2.47) 
































HF ov. 22 T* 的 一 个 固定 点 , UMBERTO vus ETS He, ESM, RA 
后 续 状 态 的 实际 价值 是 已 知 的 。 换 句 话 说， 价值 是 不 完整 的 ， 因 此 ， 我 们 在 以 上 的 证 明 中 使 用 佑 
计价 值 函 数 VY， 而 不 是 真实 价值 vo 
可 时 停止 价值 迭代 算法 不 是 显而易见 的 。 文 献 (Williams et al., 1993) 在 理论 上 给 出 了 一 个 充 
41] (Sufficient) 停止 标准 : 如 果 两 个 连续 价值 函数 的 最 大 差异 小 于 ce， 那么 在 任意 状态 下 ,贪心 
策略 的 价值 与 最 优 策略 的 价值 函数 的 差 值 不 会 超过 PS 












































































































































—, 
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2.4.3 其 他 DPs: 异步 DP、 近 似 DP 和 实时 DP 


目前 描述 的 DP 方法 均 使 用 同步 回 滴 (Synchronous Backup)， 即 每 个 状态 的 价值 基于 系统 性 
的 扫描 (Systematic Sweeps) 来 回 湖 。 一 种 有 效 的 变 体 是 异步 的 更 新 CAsynchronous Update), mi 
这 也 是 速度 和 准确 率 之 间 的 权衡 。 异 步 DP 对 于 强化 学 习 的 设 定 也 是 适用 的 ， 且 如 果 所 有 状态 被 
持续 选择 的 话 ， 可 以 保证 收 化 。 异 步 DP 有 三 种 简单 的 思路 : 
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算法 2.7 价值 迭代 
为 所 有 状态 初始 化 下 
repeat 
ô- 0 
for s € S do 
u + V (s) 
V (s) + maxa js P(r, s'|s,a)(r + yV(s’)) 
6 + max(d, |u — V (s)|) 
end for 
until 6 /- T — iE BUT 
输出 贪心 策略 r(s) = arg maxa > 4, P(r, s'|s, a)(r + V (s^)) 









































1. 在 位 更 新 〈In-Place Update 
同步 价值 迭代 (Synchronous Value Iteration) 存储 价值 函数 Wi() FLV. (-) 的 两 个 备份 : 









































Vias) — max Rí(s,a) 4- y 2 P(s'|s, a)V;(s’). (2.48) 





TEMME IKAR R FERE BE — 1 8 02 : 























V(s) — max R(s, a) 十 RN a)V (s). (2.49) 








2. 优先 扫描 CPrioritized Sweeping) 
在 异步 DP 中 ， 另 一 个 需要 考虑 的 事情 是 更 新 顺序 。 给 定 一 个 转移 (s,a,s')， 优 先 扫描 将 它 
的 贝尔 曼 误 差 (Bellman Error) 的 绝对 值 作 为 它 的 大 小 : 
























































V (s) — max(R(s, a) + y >》 P(s'|s,a)V(s'))] . (2.50) 
SES 








它 可 以 通过 保持 一 个 优先 权 队 列 来 有 效 地 实现 ， 该 优先 权 队列 在 每 个 回溯 后 存储 和 更 新 每 
个 状态 的 贝尔 曼 误 差 。 

3. 实时 更 新 (Real-Time Update) 
在 每 个 时 间 步 上 之 后 ， 不 论 采 用 哪个 动作 ， 实 时 更 新 将 只 会 通过 以 下 方式 回 湖 当前 状态 Se: 























T(S) € max R(S;,a) +7 V ^ P(s'|S:,a)V(s'). (2.51) 
acA scs 





它 可 以 被 视 为 根据 智能 体 的 经 验 来 指导 选择 要 更 新 的 状态 。 
同步 DP 和 异步 DP 都 在 全 部 状态 集 上 回 滴 ， 估 计 下 一 个 状态 的 预期 

















H 





报 。 从 概率 的 角度 来 
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看 ， 一 个 有 偏差 的 但 有 效 的 选择 是 使 


2.5 RES 


























TREE SY 








中 。 我 们 将 在 下 一 个 小 节 中 深入 讨论 此 问题 。 





和 动态 规划 不 同 的 是 ， 蒙 特 卡 罗 (Monte Carlo, MC) 方法 不 需要 知道 环境 的 所 有 信息 。 蒙 特 





卡 罗 方 法 只 需 基 于 过 去 的 经 验 就 可 以 学 习 。 它 也 是 一 种 基 
环境 只 有 很 少 的 先 验 知识 时 从 经 验 中 学 习 来 取得 很 好 的 效果 。 
的 算法 。 





特 卡 罗 可 以 在 对 

















用 来 泛 指 那些 有 很 大 随机 性 

当 我 们 在 强化 学 习 中 使 用 蒙特 1 
(State-Action Pair〉 相 应 的 : 
(Contextual Bandit) 问题 中 







































































于 样本 的 〈Sampling-Based) 方法 。 蒙 








FE 罗 方 法 的 时 候 ， 需 要 对 来 自 不 同 片段 中 的 每 个 状态 -动作 对 


“蒙特 卡 罗 ” 可 以 

















迷 励 值 取 平均 。 

















LED 灯 状 态 信息 和 





























， 如 果 在 不 同 的 机 器 上 有 
司 的 联系 。 我 们 在 这 上 






































个 例子 是 ， 在 本 章 之 前 内 容 
个 LED H, WARE 
FP 灯 的 排列 组 合作 为 一 和 

















介绍 的 上 下 文 赌博 机 














i 可 以 逐渐 地 学 习 
PS. Ao AS 

















能 的 奖励 值 就 作为 这 个 状态 的 价值 。 最 开始 ， 我 们 可 能 无 法 对 状态 价值 有 一 个 很 好 的 预 估 ， 但 是 

















当 我 们 做 出 更 多 世 
们 怎么 更 合理 地 做 


























尝试 以 后 ，3 


估算 。 假 设 问题 是 回合 和 



































作 ， 一 个 回合 最 后 都 会 终止 。 





2.5.1 ”蒙特 卡 罗 预 测 

起 来 看 给 定 
种 方式 是 ， 通 过 对 具体 策略 产生 的 回 
数 vs (s) 作为 在 策略 r 下 的 状态 价值 函数 。 我 们 


首先 ， 我 们 
































态 s 在 一 个 回合 








O 














均 状 态 价值 会 向 它们 的 真实 值 靠近 。 在 这 个 章 ? 
BI] (Episodic), 






































个 策略 oe 如 何 用 
































报 取 ” 

















REKRY 



































更 
合 ， 并 把 每 一 次 状 


上， 我 们 会 探索 我 
而 不 论 一 个 玩家 做 出 了 哪些 的 动 


罗 方 法 来 评估 状态 价值 函数 。 直观 上 的 一 
评估 状态 价值 函数 。 
晶 经 过 状态 s 的 回 























LA, iE 


8 现 叫 作 一 次 对 状态 s 的 访问 。 这 样 一 来 ， 我 们 就 有 两 种 估算 方式 : 首次 蒙 








TREZ (CFirst-Visit Monte Carlo) 和 每 次 蒙特 卡 罗 CEvery-Visit Monte Carlo)。 首 次 蒙特 卡 罗 只 考 





虑 每 一 个 回合 











方式 有 很 多 的 相 
来 对 v. (s) 估 




















第 一 次 到 状态 s 的 访问 ， 而 每 次 蒙特 








似 点 , 但 是 也 有 








EE 首次 蒙特 








检查 条 件 去 掉 即 











自 举 (Bootstrappi 





ng)， 也 就 是 说 ， 它 不 用 








可 以 让 我 们 直接 通 





当 我 们 有 了 环境 的 模型 以 后 ， 状 态 价值 函 数 就 会 和 
个 状态 的 不 同 动作 的 价值 平均 值 来 选择 如 
型 未 知 时 ， 我 们 需要 把 状态 -动作 价值 估算 + 
们 的 学 习 目 标 就 变 成 了 qr(s,a)， 即 在 状态 s 下 根据 策略 r 采取 动 
上 与 对 状态 价值 函数 的 估计 基本 一 致 ， 而 我 们 现在 只 是 取 状 态 s f 




















的 回 





















































E 罗 就 是 考虑 每 次 到 状态 s 





FE 罗 变 成 每 次 蒙特 卡 罗 
[我 们 对 状态 s 有 无 








报 来 对 状态 值 进行 估算 ， 





在 操作 








的 访问 。 这 两 种 









































a 








些 理论 上 的 不 同 。 在 算法 2.8, 我 们 展示 了 如 何 用 








次 蒙特 卡 罗 







































































EH 
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EF 意 状态 下 的 最 好 动作 ， 
个 状态 -动作 




















值 需要 被 分 别 


就 和 在 动态 规 蕊 

















上 很 简单 ， 我 们 只 需要 把 对 首次 访问 
话 ， 那 最 终 这 两 种 方式 都 会 收敛 到 wr(s)。 
蒙特 卡 罗 方 法 可 以 独立 地 对 不 同 的 状态 值 进行 估算 。 和 动态 规划 不 同 的 是 ， 蒙 特 卡 罗 不 使 用 
占 算 来 估算 当前 的 状态 值 。 这 个 独特 的 性 质 
从 而 有 更 小 的 偏差 但 会 
对 为 我 们 就 可 














更 大 的 方差 。 














以 通过 比较 对 一 














/E a 时 的 预期 





口 











上 里 一 样 。 当 模 
Wir. ME, R 


报 。 这 在 本 质 





E 动 作 a 上 的 平均 值 而 已 。 不 过 
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有 时 ， 可 能 会 有 一 些 状态 从 来 都 没有 被 访问 过 ， 所 以 就 没有 回报 。 为 了 选择 最 优 的 策略 ， 我 们 必 
须要 探索 所 有 的 状态 。 一 个 简单 的 方法 是 直接 选择 那些 没有 可 能 被 选择 的 状态 -动作 对 来 作为 初 





























始 状 态 。 这 样 一 来 ， 就 可 以 保证 在 足够 的 回合 数 过 后 ， 所 有 的 状态 -动作 对 都 是 可 以 被 访问 的 。 我 




















们 把 这 样 的 一 个 假设 叫 作 叫 作 探索 开始 CExploring Starts). 











算法 2.8 首次 蒙特 卡 罗 预 测 

















输入 : 初始 化 策略 a 
初始 化 所 有 状态 的 V(s) 
初始 化 一 列 回 报 : Returns(s) 对 所 有 状态 


repeat 



























































G —0 
t—T-1 
for t >= 0 do 
G & yG + Ria 
if So, Si, oes ,St—1 没有 Si then 
Returns(S;).append(G) 
V(S,) — mean(Returns(S;)) 
end if 
tc—t-l 
end for 
until 收敛 


通过 0: So, Ao, Ro, 81, , Sr i, Amas Ri 生成 一 个 回 





2.52 ”蒙特 卡 罗 控 制 
































现在 我 们 可 以 把 泛 化 策略 迭代 运用 到 蒙特 卡 罗 中 去 ， 来 看 看 它 是 怎么 用 来 控制 的 。 泛 化 策略 


迭代 有 两 个 部 分 ， 策略 评估 (Policy Evaluation) 和 策略 提升 (Policy Improvement)。 策 略 评估 的 
过 程 与 之 前 小 节 中 介绍 的 动态 规划 是 一 样 的 ， 所 以 我 们 主要 来 介绍 策略 提升 。 我 们 会 对 状态 - 动 
作 值 使 用 贪心 策略 ， 在 这 种 情况 下 不 需要 使 用 环境 模型 。 贪 心 策略 会 一 直选 择 在 一 个 状态 下 有 最 













































































高 价值 的 动作 : 


7(s) = arg max q(s, a) 





对 于 每 一 次 策略 提升 ， 我 们 都 需要 根据 qu, 来 构造 mii1。 这 里 展示 策略 提升 是 怎么 实 下 


















































dr (8; TtH1(5)) = dr, (s, arg max qr, (s, a) 
a 


= max On, (s, a) 


> qx (s, m(s)) 
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2 vs (5) (2.53) 




















上 面 的 式 子 证 明了 mua 不 会 比 m 差 ， 而 我 们 会 在 迭代 策略 提升 后 最 终 找 到 最 优 策略 。 这 也 
意味 着 ， 我 们 可 以 对 环境 没有 太 多 了 解 而 只 有 采样 得 到 的 回合 才 使 用 蒙特 卡 罗 。 这 里 我 们 需要 解 
决 两 个 假设 。 第 一 个 假设 是 探索 开始 ， 第 二 个 是 假设 有 无 穷 多 个 回合 。 我 们 先 跳 过 第 一 个 假设 ， 
从 第 二 个 假设 开始 。 简 化 这 个 假设 的 一 种 简单 方法 是 ， 通 过 直接 在 单个 状态 的 评估 和 改进 之 间 交 
蔡 变更 ， 来 避免 策略 评估 所 需 的 无 限 多 的 片段 《Episodes )。 






































































































































2.5) ” 增 量 蒙特 卡 罗 


从 算法 2.8 和 算法 2.9 中 可 以 看 出 , 我 们 需要 对 观察 到 的 回报 序列 求 平均 值 , 并 且 将 状态 价值 
和 状态 -动作 价值 的 估计 分 开 。 其 实 我 们 还 有 一 种 更 加 高 效 的 计算 办 法 , 它 能 让 我 们 把 回报 序列 省 
去 ， 从 而 简化 均值 计算 步 又。 这 样 一 来 ,我 们 就 需要 一 个 回合 一 个 回合 地 更 新 。 我 们 让 Q(S;, Ar) 
作为 它 已 经 被 选中 t 一 1 次 以 后 的 状态 -动作 价值 的 估计 ， 从 而 将 其 改写 为 


















































































































































a A) e Pr Wat - Tee (2.54) 





算法 2.9 蒙特 卡 罗 探 索 开 始 
初始 化 所 有 状态 的 x(s) 
对 于 所 有 的 状态 -动作 对 ， 初 始 化 @(s,a) 和 Returns(s, a) 
repeat 
随机 选择 So 和 4o， 直 到 所 有 状态 -动作 对 的 概率 为 非 零 
根据 T: So, Ao, Ro, $1, ST ST.a4, Ar-1, Ri 来 生成 So, Ao 
G —0 
t—T-1 
for t >= 0 do 
Ge yG + Rua 
if So, Ao, $1, Ay tg Os Aia 没有 Si, At then 
Returns(S;,, A;).append(G) 
Q(S,, Az) < mean(Returns(S;, Ai)) 
T(S) — arg max, Q(S;,a) 
end if 
tic—ti-1l 
end for 
until 收敛 
























































对 该 式 的 一 个 简单 实现 是 将 所 有 的 回报 G 值 都 记录 下 来 ， 然 后 将 它 的 和 值 除 以 它 的 访问 次 
数 。 然 而 ， 我 们 同样 也 可 以 通过 以 下 的 公式 来 计算 这 个 值 : 
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i=l 
= (Ge + (= DQ 
二 Qi 十 “(Gi — Q1) (2.55) 

















这 个 形式 可 以 让 我 们 在 计算 回报 的 时 候 更 加 容易 操作 。 它 的 通用 形式 是 : 























新 估计 值 二 旧 估计 值 + 步伐 大 小 : (目标 值 — 旧 估 计 值 ) (2.56) 














“步伐 大 小 ”是 我 们 用 来 控制 更 新 速度 的 一 个 参数 。 











2.6 ”时间差 分 学 习 


时 间 差 分 (Temporal Difference, TD) 是 强化 学 习 中 的 另 一 个 核心 方法 , 它 结合 了 动态 规划 和 
蒙特 卡 罗 方 法 的 思想 。 与 动态 规划 相似 ， 时 间 差 分 在 估算 的 过 程 中 使 用 了 自 举 (Bootstrapping), 
但 是 和 蒙特 卡 罗 一 样 ， 它 不 需要 在 学 习 过 程 中 了 解 环境 的 全 部 信息 。 在 这 章 中 ， 我 们 首先 介绍 如 
何 将 时 间 差 分 用 于 策略 评估 ， 然 后 详细 阐释 时 间 差 分 、 蒙 特 卡 罗 和 动态 规划 方法 的 异同 点 。 最 后 ， 
我 们 会 介绍 Sarsa 和 Q-Learning 算法 ， 这 是 一 个 在 经 典 强化 学 习 中 很 有 用 的 算法 。 



















































































































































































2.61 时间差 分 预测 

从 这 个 方法 的 名 字 可 以 看 出 ， 时 间 差 分 利用 差异 值 进行 学 习 ， 即 目标 值 和 估计 值 在 不 同时 间 
步 上 的 差异 。 它 使 用 自 举 法 的 原因 是 它 需要 从 观察 到 的 回报 和 对 下 个 状态 的 估 值 中 来 构造 它 的 目 
标 。 具 体 来 说 ， 最 基本 的 时 间 差 分 使 用 以 下 的 更 新 方式 : 








































































































V(S;) 和 YL9 + alReri tyV(Sr1) — V (S) (2.57) 




















这 个 方法 也 被 叫 作 TDO), 或 者 是 单 步 TD 。 也 可 以 通过 将 目标 值 改 为 在 N 步 未 来 中 的 折扣 
回报 和 N 步 过 后 的 估计 状态 价值 (Estimated State Value) 来 实现 N 步 TD。 如 果 我 们 观察 得 足 
够 仔细 ， 蒙 特 卡 罗 在 更 新 时 的 目标 值 为 G:， 这 个 值 只 有 在 一 个 回合 过 后 才能 得 知 。 但 是 对 于 TD 
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来 说 ， 这 个 目标 值 是 Riga 十 YV (S441)， 而 它 可 以 在 每 














TD(0) 是 如 何 / 




















步 都 算出 。 





来 做 策略 评估 的 。 





算法 2.10 TD(0) 对 状态 值 的 估算 




















在 算法 2.10 中 ， 我 们 展示 了 





输入 策略 x 


初始 化 V(s) RUE o € (0, 1] 
for 每 一 个 回合 do 


初始 化 So 


for 每 一 个 在 现 有 回合 的 S 
A, {s T(S) 
Fai $11 = Env(Si, At) 
V(St) — V(S4) + o[ Rigi + YV (Si41) — V(Sj)] 








+ do 























end for 
end for 
这 里 分 析 一 下 动态 规划 、 蒙 特 卡 罗 和 时 间 差 分 方法 的 异同 点 。 它 们 都 是 在 现代 强化 学 习 中 的 
核心 算法 ， 而 且 经 常 是 被 结合 起 来 使 用 的 。 它 们 都 可 以 被 用 于 策略 评估 和 策略 提升 ， 它 们 之 间 区 














别 却 是 深度 强化 学 习 效 果 不 同 的 主要 来 源 之 一 。 
这 三 种 方法 都 涉及 泛 化 策略 迭代 GPU， 它们 主要 区 别 在 于 策略 评估 的 过 程 ， 
区 别 是 ， 动 态 规划 和 时 间 差 分 都 使 用 了 自 举 法 ， 而 蒙特 卡 罗 没 有 。 



























































{中 最 明显 的 
动态 规划 需要 整个 环境 模型 的 


所 有 信息 ， 但 是 蒙特 卡 罗 和 时 间 差 分 不 需要 。 进 一 步 地 ， 我 们 来 看 一 下 它们 的 学 习 目 标的 区 别 。 


v 








«(s) = Er [GSi = s] (2.58) 
= E [Rai T *4G44|9; 一 s] (2.59) 
= E [Rai ie Un (S441) | St = s] (2.60) 








公式 (2.58) 是 蒙特 卡 罗 方 法 的 状态 价值 估计 方式 ， 公 式 (2.60) 是 动态 规划 的 。 它 们 都 不 是 真 


正 的 状态 值 而 是 估计 值 。 时 间 差 分 则 把 蒙特 












































# 罗 的 采样 过 程 和 动态 规划 的 自 举 法 结合 









































在 我 们 就 简 册 








解释 实践 


时 间 差 分 可 以 比 动态 规划 或 才 


蒙特 卡 罗 更 有 效 的 原因 。 


















































使 | 











式 来 表示 一 个 回 








] 的 是 在 线 学 习 ， 这 也 就 意味 着 它 每 一 步 都 可 
后 再 学 习 ， 这 样 回 
















































































信息 而 不 需要 














合 。 另 外 ， 时 间 差 分 在 实践 中 往往 收敛 得 更 快 ， 



































E 











MAIER. TUS SEE DIESE) 





渐进 收敛 到 v (5) « 


这 里 我 们 介绍 时 间 差 分 和 蒙特 11 
我 们 知道 在 监督 学 习 的 设置 下 , 较 大 的 偏差 往往 意味 着 这 个 模型 





,在 




























































































方差 伴随 较 低 的 偏差 往往 意味 3 
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因为 它 的 学 习 是 来 自 状态 转移 上 
里 想 情况 下 ， 两 种 方法 最 终 都 会 


了 起 来 。 现 


首先 ， 时 间 差 分 不 需要 一 个 模型 而 动态 规划 需要 。 将 时 间 差 分 与 蒙特 卡 罗 做 比较 ， 时 间 差 分 
以 学 习 ， 但 是 蒙特 卡 罗 却 只 能 在 一 个 回合 结束 以 
合 很 长 时 会 比较 难以 处 理 。 当 然 ， 也 存在 一 些 连续 性 的 问题 无 法 用 片段 式 的 形 





cr 


RY AE eM EAA (Bias and Variance Trade-off). 
VR CUnderfitting), 而 较 大 的 




















着 一 个 模型 过 拟 合 (Overfitting )。 一 个 拟 合 器 (Estimator) AY (iz 














2.6 时间 差分 学 习 

















是 估计 值 和 真正 值 间 的 差异 。 我 们 对 状态 价值 进行 估计 时 ,偏差 可 以 被 定义 为 E[V (5:)] 一 V(51)。 
拟 合 器 的 方差 描述 了 这 个 拟 合 有 多 大 的 噪声 。 同 样 对 于 状态 价值 估计 ，, 方差 定义 为 E[(E[V(51)] 一 
V (94))*]。 在 预测 时 ， 不 管 它 是 状态 价值 估计 ， 还 是 状态 -动作 价值 估计 ， 时 间 差 分 和 蒙特 卡 罗 的 
更 新 都 有 如 下 形式 : 





































































































V (St) — V(S;) + o[TargetValue — V(S;)] 




















实质 上 ， 我 们 对 不 同 回合 进行 了 加 权 平 均 计 算 。 时 间 差 分 法 和 蒙特 卡 罗 法 在 处 理 目标 值 时 分 
别 采用 不 同 的 方式 。 蒙 特 卡 罗 法 直接 估算 到 一 个 回合 结束 累计 的 回报 。 这 也 正 是 状态 值 的 定义 ， 
它 是 没有 偏差 的 。 而 时 间 差 分 法 会 有 一 定 的 偏差 ， 因 为 它 的 目标 值 是 由 自 举 法 估计 得 到 的 ， 如 
Rigi 十 Yvr(Se41)。 男 一 方面 ， 蒙 特 卡 罗 法 ， 所 以 在 不 同 回 合 中 积累 到 最 后 的 回报 会 有 较 大 的 方 
差 由 于 不 同 回 合 的 经 过 和 结果 都 不 同 。 时 间 差 分 法 通过 关注 局 部 估计 的 目标 值 来 解决 这 个 问题 ， 
只 依赖 当前 的 奖励 和 下 一 个 状态 或 动作 价值 的 估计 。 自 然 地 ， 时 间 差 分 法 方差 更 小 。 

我 们 可 以 在 动态 规划 和 蒙特 卡 罗 之 间 找 到 一 个 中 间 方 法 来 更 有 效 地 解决 问题 ， 即 TD (A). 在 
此 之 前 ， 我 们 需要 先 介绍 资格 迹 〈Eligibility Trace) 和 4- 回报 CA-Return) 概念 。 

简单 来 说 ， 资 格 迹 可 以 给 我 们 带 来 一 些 计算 优势 。 为 了 更 好 地 了 解 其 优势 ， 我 们 需要 介绍 半 
梯度 (Semi-Gradient) 方法 ， 然 后 再 来 看 如 何 使 用 资格 迹 。 关 于 策略 梯度 方法 在 2.7 节 中 有 介绍 ， 
而 这 里 我 们 简单 地 使 用 一 些 策略 梯度 方法 中 的 概念 来 方便 解释 资格 迹 。 假 如 说 我 们 的 状态 价值 函 
数 不 是 表格 〈Tabular) 形式 而 是 一 种 函数 形式 ， 这 个 函数 由 矢量 w € R^ 参数 化 。 比 如 w 可 以 是 
一 个 神经 网 络 的 权重 。 为 了 得 到 V(s,w) © wxr(s)， 我 们 使 用 随机 梯度 更 新 来 减 小 估计 值 和 真正 
的 状态 价值 的 平方 损失 〈Quadratic Loss)。 权 重 向 量 的 更 新 规则 就 可 以 写 为 
















































































































































































































































































































































































































































































1 
Wt+1 = Wt 一 DV w [va (S1) = V (Si, wf 


= Ww + avs (St) ie: V(Si, wz:)|Vw,V (St, wi) (2.61) 














IT 








o 为 一 个 正 值 的 步 长 变量 。 
资格 迹 是 一 个 向 量 : zt € R*， 在 学 习 的 过 程 中 ,每 当 wi 的 一 个 部 分 被 用 于 估计 ， 则 它 在 z 
里 的 那个 相对 应 的 部 分 需要 随 之 增加 ， 而 在 增加 以 后 它 又 会 慢 慢 递减 。 如 果 轨 迹 上 的 资格 值 回落 
到 零 之 前 ， 有 一 定 的 TD 误差 ， 就 进行 学 习 。 首 先 把 所 有 资格 值 都 初始 化 为 0， 然后 使 用 价值 函 
数 的 梯度 来 增加 资格 迹 ， 而 资格 值 递 减 的 速度 是 YA。 资 格 迹 的 更 新 满足 如 下 公式 : 





























































































































z-1=0 (2.62) 
Zt = y¥AZt-1 + Vw. V (St, w) (2.63) 


























如 算法 2.11 所 示 ，TD(A) 使 用 资格 迹 来 更 新 其 价值 函数 估计 。 易 见 ， 当 和 = 1, TD(A) BAR 
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此 ， 资 格 迹 可 以 看 作 











特 卡 罗 法 ;而 当 A= 0 时 ， 它 就 变 成 了 一 个 单 步 TD (One-Step TD) iX. 
是 把 时 间 差 分 法 和 蒙特 卡 罗 法 相 结 合 的 一 个 方法 。 

















算法 2.11 状态 值 半 梯度 TD(A) 
输入 策略 7 
初始 化 一 个 可 求 导 的 状态 值 函数 v、 步 长 a 和 状态 值 函 数 权 习 
for 对 每 一 个 回合 do 














E 
& 


















































初始 化 So 

z<0 

for 每 一 个 本 回合 的 步骤 S, do 
使 用 7 来 选择 A, 


Rtr1, $11 c— Env(S;, At) 
z € yAz + VV (Sı, ux) 
ô — HE YV (Sia, wt) = V(Si, wi) 
w + w-aóz 
end for 
end for 























A-RE Za n 27 "n BO fi ERE. A- 回 报 是 nr 个 已 经 折扣 化 的 回报 和 一 个 在 最 后 一 步 状态 
下 的 估计 值 相 加 得 到 的 。 我 们 可 以 把 它 写作 : 
























































Gettin = Risi + YR +e t 2S Rin Toy" u(Stin, Ween—1) (2.64) 























t 是 一 个 不 为 零 的 标量 , 它 小 于 或 等 于 了 一 n。 我 们 可 以 使 用 加 权 平 均 回 报 来 估算 ,只 要 它们 
的 权重 满足 和 为 1。TD(4) 在 其 更 新 中 使 用 了 加 权 平 均 (A € [0, 1]): 















































G? = (1—A) 5 A" Gs (2.65) 
n=1 

















直观 地 讲 ， 这 就 意味 着 下 一 步 的 回报 将 有 最 大 的 权重 1— 4， 下 两 步 回 报 的 权重 是 (1— A)A. 
每 一 步 权重 递减 的 速率 是 4。 为 了 有 更 清晰 的 理解 ， 我 们 让 结束 状态 发 生 于 时 间 工 ， 从 而 上 面 的 
公式 可 以 改写 成 







































































T-t-1 
Gi =(1-A) M "Gus AT IG (2.66) 
n=1 
TD 误差 0, 可 以 被 定义 为 
Oz = Riz + YV (Sia, w) — V(S,, w) (2.67) 
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2.6 时 间 差 分 学 


习 





2.0.2 Sarsa: 


选择 
价值 








这 个 更 新 规则 是 基于 TD 


对 于 TD 控 
的 转移 变 为 状态 -动作 对 的 交 蔡 。 这 样 





首 字 母 缩写 Saras 来 表示 这 个 算法 ， 
选择 了 一 个 动作 (A)， 同 时 也 观察 到 了 回 
一 个 新 的 动作 (A)。 这 样 的 过 程 让 我 
都 得 到 更 新 ， 更 新 后 的 状态 价值 会 影 

















误差 和 迹 的 比 





在 线 策略 TD 控制 
制 ， 我 们 使 用 的 方法 和 预测 任务 一 样 


























EMI. 52.11 里 有 其 细 





























Q(St, At) — Q(Si, At) + oa d 





的 更 新 规则 就 可 以 被 写 为 


当 S, 是 终止 状态 (Terminal State〉 的 时 候 ， 








大 





















































来 描述 这 样 一 类 算法 ， 它 们 的 更 新 策 
是 不 同 的 。Q-Learning 就 是 离线 策 














BR 














向 决定 动作 的 策略 ， 


t YQ(St41, Aca) ES 


Q(S:, Ai)] Q. 


下 一 个 状态 -动作 对 的 Q 值 就 会 变 成 0。 我 们 用 





为 我 们 有 这 样 的 一 个 行为 过 程 : 
报 〈R)， 然 后 我 们 就 到 了 另外 一 个 状态 〈S) 下， 需要 
门 可 以 做 一 个 简单 的 更 新 步骤 。 对 于 每 一 个 转移 ， 状 态 
即 在 线 策略 法 。 在 线 策略 法 一 般 用 























首先 在 一 个 状态 〈S) 下 


， 唯 一 的 不 同 是 ， 我 们 需要 将 从 状态 到 状态 


08) 




















M 
, 























EWS ALT SSMS (Behavior Policy) 同样 。 而 离线 策略 法 往往 




















各 算法 




























































































的 一 个 例子 。 我 们 会 在 之 后 的 章节 中 提 到 。Q-Learning 





























































































































































































































在 更 新 Q 函数 时 假设 了 一 种 完全 贪心 的 方法 ， 而 它 在 选择 其 动作 时 实际 上 用 的 是 另外 一 种 类 似 
于 e- 贪 心 (e-Greedy) 的 方法 。 现 在 我 们 在 算法 2.12 中 列 出 Sarsa 的 细节 。 在 每 一 个 状态 -动作 对 
都 会 被 访问 无 数 次 的 假设 下 ， 会 有 最 优 策略 和 状态 动作 价值 的 收敛 性 保证 。 
算法 2.12 Sarsa (ERRI TD 控制 ) 
对 所 有 的 状态 - 动作 对 初始 化 Q(s, a) 
for 每 一 个 回合 do 
TUR So 
一 个 基于 Q 的 策略 来 选择 Ao 
for 每 一 个 在 当前 回合 的 S do 
个 基于 Q 的 策略 从 S, 选择 A, 
M $41 c— Env(S;, A t) 
从 Sua 中 用 一 个 基于 Q 的 策略 来 选择 4,+1 
Q(S;, At) — Q(S:, At) + oi + YQ(St41, Ar1) — Q(St, Ai)] 
end for 
end for 
上 面 展 示 的 方法 只 有 一 步 的 时 间 范 围 ， 这 就 意味 着 它 的 估算 只 需要 考虑 下 一 步 的 状态 -动作 
价值 。 我 们 把 它 叫 作 单 步 Sarsa 或 者 Sarsa(0)。 我 们 可 以 简单 地 使 用 自 举 法 把 未 来 的 步骤 也 都 容 
纳 到 目标 值 中 从 而 减少 它 的 偏差 。 从 图 2.12 的 回溯 树 展示 中 ， 我 们 可 以 看 见 Sarsa 很 多 不 同 的 变 
体 。 从 最 简单 的 一 步 Sarsa 到 无 限 步 Sarsa， 也 就 是 蒙特 卡 罗 方 法 的 另外 一 个 形态 。 为 了 把 这 样 的 
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一 个 变化 融入 原来 的 方法 ， 我 们 需要 


Gtetn = Rigi + yao 


—#Sarsa 两 步 Sal 

















图 2.12 Wn 步 Sarsa PANE HM 




















n  Sarsa 已 经 在 算法 2.13 中 有 所 描述 了 。 









































o 


每 一 个 黑色 的 圆圈 都 代表 了 一 个 状态 ， 每 一 个 白色 的 
圈 都 代表 了 一 个 动作 。 在 这 个 无 穷 多 步 的 5arsa 里 ， 最 后 一 个 状态 就 是 Sib KAS 

















巴 折扣 回报 写 为 
tee ty Rin $Y" Qtan—1 (Stn, Attn) (2.69) 
rsa 三 步 Sarsa Filg 
o 
o 
e © où ooo : 











bala 
































和 单 步 版 本 最 大 











间 来 做 更 新 ， 而 单 步 的 版 本 只 需要 一 边 向 前 进行 一 边 更 新 即 可 。 











现在 讨论 Sarsa 算法 在 有 限 的 动作 空间 旦 
































的 收敛 理论 。 我 们 首先 需要 以 下 的 儿 个 条 件 。 


定义 2.1 一 个 学 习 策 略 被 定义 为 : 在 无 限 的 探索 中 的 极限 贪 禁 
Exploration, GLIE)。 如 果 它 能 够 满足 以 下 两 个 性 质 : 1. 如 果 一 个 状态 被 无 限 次 访问 , 那么 在 该 状态 


下 的 每 个 可 能 的 动作 都 应 当 被 无 限 次 选择 ， 即 lim, ,oo Nj(s, a) 











的 不 同 是 ， 它 需要 回 到 过 去 的 时 














(Greedy in the Limit with Infinite 





= oo, Va, if limy ;wo Ni (s) = co。 


2. 策略 根据 学 习 到 的 Q DKE t> o AY MIR FIR EIA PARI MG, BP limp sss Ths, a) = 
“=-=” 是 一 个 比较 算 子 ， 当 1(a-- 0) 的 括号 内 为 真 时 ， 它 


1(a == arg maxe/eA Qx(s,a')), Xt 
的 值 为 1， 否则 为 0。 


GLIE 是 学 习 策略 收敛 的 一 个 条 件 








略 ， 如 下 : 





1 


Fa 

















cdd ER 
的 强化 学 习 算 法 来 说 ， 它 都 成 立 。 举 例 来 说 ， 我 们 可 以 通 





函数 且 估 计 值 都 有 界 (Bounded) 








Ele 贪心 方法 来 推导 出 一 个 GLIE 的 策 








引 理 2.1 de eA e — t UU AS Kk PE mibi TE, IBZ -贪心 是 GLIE。 
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2.6 时间差 分 学 习 





算法 2.13 n 步 Sarsa 
对 所 有 的 状态 -动作 对 初始 化 Qs, a) 
初始 化 步 长 € (0,1] 
决定 一 个 固定 的 策略 7 或 者 使 用 e- 贪 心 策略 
for 每 一 个 回合 do 
初始 化 So 
使 用 (So, A) 来 选择 Ao 
T —INTMAX (一 个 回合 的 长 度 ) 
y —0 
for t — 0,1,2,--- until — T — 1 do 
if t < T then 
Rizvi, $4 c— Env(S;, At) 
if $,,4 是 终止 状态 then 
























































































































































T —t-1 
else 
使 用 T (Si, A) 来 选择 Ata 
end if 
end if 
T-—t—n41 (更 新 的 时 间 点 。 这 是 nn 步 Sarsa， 只 需 更 新 nn 十 1 前 的 一 步 ， 持 续 下 去 直 
到 所 有 状态 都 被 更 新 。) 
if 7 > 0 then 
Cex gas 


if y+n « T then 
G — G t Y" Q(Sios, Aytn) 
end if 
Q(S5, Ay) — Q(S,, Ay) + o[G — Q(S,, Ay)] 
end if 
end for 
end for 

















KAMRA T Sarsa 算法 的 收敛 定理 。 


定理 2.1 对 于 一 个 有 限 状态 -动作 的 MDP 和 一 个 GLIE 学 习 策略 ， 其 动作 价值 函数 Q AMT IA) Ht 
上 由 Sarsa 〈 单 步 的 ) 估计 为 Q:， 那 么 如 果 以 下 两 个 条 件 得 到 满足 ，Qi 会 收敛 到 Q* 并 且 学 习 策 
略 m, BAA RERE mU: 

1. Q 的 值 被 存储 在 一 个 查找 表 (Lookup Table) €; 

2. 在 时 间 t 与 状态 -动作 对 (s,a) 相关 的 学 习 速 率 (Learning Rate) a;,(s, a) 满足 0 € ai(s,a) € 1, 
>, at(s,a) 2 oo, $5,02(s, a) <œ, ŽE ow(s,a) = 0 除非 (s,a) = (St, At); 

3. 方差 Var[R(s,a)] < co。 






































符合 第 二 个 条 件 对 学 习 速率 的 要 求 的 一 个 典型 数列 是 (St, Ay) = +。 我 们 在 这 里 对 上 面 定 
里 的 证 明 不 做 介绍 ， 有 兴趣 的 读者 可 以 查看 文献 (Singh et al., 2000). 
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2.0.3 





Q-Learning 是 一 种 离线 











目标 值 现在 不 





4 


a 


























Q(Si, At) — Q(Si, At) + o Ria 4 


Q-Learning: 离线 策略 TD 控制 











策略 方法 ， 与 Saras 很 类 似 ， 在 深度 学 习 应 用 : 
深度 Q 网 络 (Deep Q-Networks ) 。 如 公式 (2.70) 所 示 ，Q-Learning 和 Sarsa 了 
再 依赖 于 所 使 用 的 策略 ， 而 只 依赖 























pA 


很 容易 ， 
fi. E 
st (2.70) 里 的 














可 以 先 基 


















































目标 值 加 入 未 





算法 2.14 Q-Learning (离线 策略 TD j 


在 算法 2.14 中 ， 我 们 展示 了 如 何 
于 状态 和 回 
四 展示 的 是 单 步 Q-Learning， 我 人 























有 很 重要 的 作用 




















， 如 














于 状态 -动作 价值 函数 。 


Q(St41, a) iam Q(S;, A)] 








报 选 择 动作 




















站 
来 的 折扣 后 的 


口 








报 。 








ZAD 




















主要 的 区 别 是 ， 它 的 


(2.70) 





J Q-Learning 控制 TD。 将 Q-Learning 变 成 Sarsa 算法 也 
， 然 后 在 更 新 步 中 将 目标 值 改 为 估计 的 下 一 步 动 作价 
也 可 以 把 Q-Learning 变 成 nn 步 的 版 本 。 

















LA BOE EG ZS 











初始 化 所 有 的 状态 -动作 对 的 Qs, a) KEK a € (0, 1] 


for 每 一 个 回合 do 
初始 化 So 


for 每 一 个 在 当前 回合 的 S, do 
使 用 基于 Q 的 策略 来 选择 A, 

















Rizvi, $a zm Env(S; 





, At) 


Q(S;, At) — Q(S;, At) + a[ Regi + ymaxa Q(St41, a) — Q(Si At)] 


end for 
end for 





Q-Learning 的 收敛 性 条 件 和 Sarsa 算法 的 很 类 似 。 


除了 对 策略 有 的 GLIE 条 伯 














函数 的 收敛 还 对 学 习 速率 和 


























有 界 奖 励 值 要 求 ， 这 里 不 























1998; Watkins et al., 1992) ! 





2.7 ”策略 优化 


复述 











找到 。 


, 





























; Q-Learning F Q 


LAS AWE BA nf LAE CHR (Szepesvári, 





2.7.1 简介 


在 强化 学 习 中 ， 智 能 体 
改进 叫 策略 优化 〈 图 2.13 )。 



































的 最 终 目 
对 深度 强化 学 习 而 





> A 


Fo W 











化 , 因此 可 以 使 用 基于 梯度 的 优化 方法 。 举 例 来 说 ， 


标 是 改进 它 的 策略 来 获得 
略 和 价值 函数 通常 











的 概率 图 模型 (Graphical Model)， 其 中 策略 由 变量 0 参数 


内 。 
可 以 


奖励 函数 表示 为 Ri 
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R(St, At)， 而 动作 表示 为 At ~ 





iR 


好 的 奖 
































图 2.14 展 











ANS 











化 ， 1 





1 (850). 








RE 


FE 离散 时 间 范 





励 。 在 优化 范畴 下 的 策略 
深度 神经 网 络 : 
使 用 参数 化 策略 的 MDP 














的 变量 








t=0,---,N-1 








图 模型 ， 





变量 的 依赖 关系 




















帮助 我 们 理解 MDP 估计 中 的 潜在 关系 ， 而 且 可 以 有 助 于 我 








门 在 依赖 关系 图 


中 对 最 终 目 标 求 


2.7 


策略 优化 














微分 的 过 程 。 近 来 





导 而 优化 变量 有 帮助 ， 因 此 我 们 将 

















量 ， 从 而 将 概率 


























可 以 应 








除了 一 些 线性 方法 ， 使 
Function Approximation) 的 方式 ， 
， 我 们 无 法 获得 











情况 
V7 (S) 的 MDP 概率 























到 强化 学 习 的 策略 亿 





图 模型 ， 














， 文 献 (Levine, 2018) 和 
as Inference )” 的 方法 ， 这 个 方法 在 MDP $ 
FE Dr BAR 7 HE 


学 习 (Maximum Entropy Rein 














forcement Learning) ! 





E 本 章 展 示 所 有 的 图 模型 来 


























帮助 理解 推导 过 程 ， 
文献 (Fu et al., 2018) 提出 了 一 利 
的 图 模型 上 添加 了 额外 的 表示 最 优 插 


Wr CVariational Inference) 的 框架 融合 





















































基于 价值 


(Q-Learning, DONS) 








B] 2.13 














图 2.14 


化 过 程 中 。 但 











Actor-Critic 
(QAC, A2C, 
A3C 等 ) 


QT-Opt 








。 这 个 方法 使 得 推 产 类 
是 关于 这 些 方法 的 具体 细节 

















基于 策 


(REINFORCE, CE 方法 ) 





强化 学 习 中 策略 优化 概览 











t=0,1,---,T-1 






































更 用 参数 化 策略 的 MDP 概率 图 模型 

















TR 


一 一 


如 出 了 本 书 范 









































2.15 展示 








了 使 





它们 的 参数 化 过 程 分 别 使 月 








最 普遍 





尤其 对 那些 可 
FP“ 推断 式 控制 (Control 
E (Optimality) 的 变 
THIS] HERES ot CN ob 





CInference Tools) 


围 。 


深度 神经 网 络 对 价值 函数 参数 化 是 一 种 实现 价值 函数 拟 合 (Value 
而 这 是 现代 深度 强化 学 习 领 域 ! 
的 价值 函数 。 图 


的 方式 ， 而 在 多 数 实际 
参数 化 策略 re 和 参数 化 价值 函数 











月 了 参数 0 和 w. BI 2.16 展示 了 使 用 参 
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数 化 策略 re 和 参数 化 Q 值 函数 QT. (St, AL) 的 MDP 概率 图 模型 。 一 般 通过 在 强化 学 习 术 语 中 
被 称 为 策略 梯度 (Policy Gradient) 的 方法 改进 参数 化 策略 。 然 而 ， 也 有 一 些 非 基于 梯度 的 方法 
(Non-Gradient-Based Methods) UJ URUAR A EZ BIER. Ens XU; CCross-Entropy; 
CE) 方法 等 。 














































































































图 215 ”使 用 参数 化 策略 和 参数 化 价值 函数 的 “区 ARAL £k E eg Y b 
MP für pr m 246 ooo 
























































如 图 2.13 所 示 , 策略 优化 算法 往往 分 为 两 大 类 :(1) 基于 价值 的 优化 (Value-Based Optimiza- 
tion) 方法 ， 如 Q-Learning、DQN 等 ， 通 过 优化 动作 价值 函数 〈Action-Value Function) 来 获得 对 
动作 选择 的 偏好 ; (2) 基于 策略 的 优化 〈Policy-Based Optimization) 方法 ， 如 REINFORCE, X 
又 炉 算法 等 ， 通 过 根据 采样 的 奖励 值 来 直接 优化 策略 。 这 两 类 的 结合 被 人 们 (Kalashnikov et al., 
2018; Peters et al., 2008; Sutton et al., 2000) 发 现 是 一 种 更 加 有 效 的 方式 ， 而 这 构成 了 一 种 在 无 模型 
(Model-Free) 强化 学 习 中 应 用 最 广 的 结构 ， 称 为 Actor-Critic。Actor-Critic 方法 通过 对 价值 函数 
的 优化 来 引导 策略 改进 。 在 这 类 结合 型 算法 中 的 典型 包括 ActorCritic 类 的 方法 和 以 其 为 基础 的 
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2.7 策略 优化 
































其 他 算法 ， 后 续 有 关于 这 些 算法 的 详细 介绍 。 








回顾 强化 学 习 梗 概 














在 线 价值 函数 (On-Policy Value Function)，wr(s)， 给 出 以 状态 s 为 起 始 并 在 后 续 过 程 始 终 遵 
循 策略 r 的 期 望 回 报 (Expected Return): 























Un(s) = Eus [R(T)|So 一 s] (2.71) 











强化 学 习 的 优化 问题 可 以 被 表述 为 


T, = arg max J (r) (2.72) 




















最 优 价值 函数 (Optimal Value Function), v*(s), 给 出 以 状态 s 为 起 始 并 在 后 续 过 程 始终 遵循 
环境 中 最 优 策略 的 期 望 回 报 ; 

















v.(s) = max vz (s) (2.73) 





Vals) = max ira |R(T)|So = s] (2.74) 











在 线 动作 价值 函数 〈On-Policy Action-Value Function)，dr(s,a)， 给 出 以 状态 s 为 起 始 并 采取 




















任意 动作 a (有 可 能 不 来 自 策略 )， 而 随后 始终 遵循 策略 r 的 期 望 回报 : 
q«(s,a) = Er~x[R(T)|So = s, Ao = a] (2.75) 











最 优 动作 价值 函数 (Optimal Action-Value Function )，g; (s, a)， 给 出 以 状态 s 为 起 始 并 采取 任 



































意 动作 ag， 而 随后 始终 遵循 环境 中 最 优 策略 的 期 望 回 报 : 
q.(s, a) = max q«(s,a) (2.76) 
q«(s, a) = max EL. [R(T)|So = s, Ao = q] (2.77) 


价值 函数 (Value Function) 和 动作 价值 函数 〈Action-Value Function) 的 关系 : 











Un(s) = a~r [Qs (5, a)] (2.78) 
v.(s) = max q.(s,a) (2.79) 
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最 优 动 作 : 
ax (5) = arg max q, (s, a) 

贝尔 曼 方 程 : 
对 状态 价值 和 动作 价值 的 贝尔 曼 方程 分 别 为 : 

Us (s) = Egnn(.|s),s’~p(-|s,a) [R(5, a) + Yon (")] 

qr (5, a) 一 Ls! ~p(-|s,a) [R(s, a) 十 了 4a! ~7(-|s’) [a (s’, a')]] 
贝尔 曼 最 优 方程 : 
对 状态 价值 和 动作 价值 的 贝尔 曼 最 优 方程 分 别 为 : 
vx (8) = max Eja) [R(s, a) + yv. (s')] 
q.(s, a) = Ey npy.|s,a)[R(8, a) + ymax q.(s’,a’)] 


2.7.2 ”基于 价值 的 优化 


基于 价值 的 优化 (Value-Based Optimization) 方法 经 常 需要 在 (1) 基于 : 
估计 和 “2) 基于 所 估计 的 价值 函数 进行 策略 优化 这 两 个 过 程 之 间 交 替 。 久 
价值 函数 并 不 容易 ， 如 图 2.17 所 示 。 
从 之 前 小 节 中 我 们 可 以 看 到 ，Q-Learning 可 以 被 用 来 解 训 





















































强化 学 习 中 一 














(2.80) 


(2.81) 
(2.82) 


(2.83) 


(2.84) 


| 上 


4 前 策略 的 价值 函数 








而， 估计 一 个 复杂 的 


些 简单 的 任务 。 然 而 ， 


























现实 世界 或 者 即使 准 现实 世界 中 的 应 用 也 都 可 能 














更 大 和 更 复杂 的 状态 动作 空间 ， 而 且 实际 应 用 


























在 这 些 情况 





129 10179 个 状态 。 












































中 很 多 动作 是 连续 的 。 比 如 ， 在 围棋 游戏 中 
KERERE 

















的 





P. Q-Learning ! 


查找 表 (Lookup Table) 方法 因为 每 个 状态 需要 有 























条 记录 (Entry) 而 每 个 状态 -动作 对 也 需 
等 提升 。 实 践 中 ， 这 个 表 中 的 值 需要 一 个 























Q(s,a) 记录 而 使 其 可 扩展 性 〈Scalability) 有 待 

















Thy 女 











个 地 更 新 。 所 以 





基于 表格 CTabular-Based) 的 Q-Learning 对 内 存 和 计算 资源 的 需求 可 能 








此 外 ， 在 实践 ! 








价值 函数 拟 合 





， 状 态 表征 (State Representations) 通常 











是 巨大 的 。 
匹配 的 数据 结构 。 





也 需要 人 为 指定 成 相 














为 了 将 基于 





价值 的 强化 当 


习 应 用 





到 相对 大 规模 的 介 








EZE, KAMAA (Function Approxima- 



































tors) 可 


和 (5)) 的 线性 
用 线性 函数 拟 合 器 而 被 证 
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来 应 对 上 述 限制 条 件 ( 图 
。 线 性 方法 (Linear Methods): 拟 合 函数 是 权重 0 和 特征 实数 应 





























图 2.18 总 结 了 不 同类 型 





2.18)。 




















4 的 价值 函数 拟 合 器 。 
= (s) = (91(5), $2(8)), +, 














ge, Hi 


s 是 状态 。 拟 合 函 数 表 示 为 v(s,0) = 0T G(s). TDA) 方法 因 使 














明 在 一 定 








条 件 下 可 以 收敛 (Tsitsiklis et al., 1997)。 尽 管线 性 方法 的 





2.7 策略 优化 








= 


[动作 或 观察 量 空 








| 简单 且 离散 | 


表格 方法 














价值 函数 拟 合 











法 | 


v 
[ 非 线性 方法 | 





其 他 方法 ] 





多 项 式 、 傅 立 叶 基 、 


粗略 编码 、 地 砖 编 
码 、 径 向 基 函 数 等 

















S 


ASA BERI 


图 


Q (s.a; w) 





g 


S a 





决策 树 、 最 近邻 、 
基于 核 的 方法 等 





Q (8,04; 


2.7. 求解 价值 函数 的 方法 概览 


w) ... Q (s,a,; W) 


S 


248 不 同 的 价值 函数 拟 合 方式 。 内 含 


ME. 数 


续 动 作 ) 

















果 证 很 请 人 ， 但 实际 上 在 使 / 
构建 特征 的 不 同方 式 : 


收敛 性 
是 线性 方法 ! 














- SIX (Polynomials): 基本 的 多 项 式 族 (Polynomial Families) 可 以) 





























该 方法 时 特征 





BR w 的 灰 


动作 价值 函数 
( 离散 动作 ) 


色 方 框 是 函数 拟 合 器 











选取 或 特征 表示 %(s) 有 一 定 难度 。 如 下 














j 作 函数 拟 合 的 特 



































{EA (Feature Vectors )。 假 设 每 一 个 状态 s = (S1, S2, Sa)? 是 一 个 d HAS, I 
么 我 们 有 一 个 d 维 的 多 项 式 基 (Polynomial Basis) 9;(s) = i ,9;7, HET cij 
是 集合 {0,1, , 和} 中 的 一 个 整数 。 这 构成 秩 (Order) 为 N 的 多 项 式 基 和 和 (N+1)4 
个 不 同 的 函数 。 
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。 非 线 ' 





傅立叶 基 (Fourier Basis): 傅立叶 变换 (Fourier Transformation) 经 常 























} 
/ 











于 表示 在 时 间 





域 或 频率 域 的 序列 信号 。 有 NN 十 1 个 函数 的 一 维 秩 为 NN 的 傅立叶 余弦 (Cosine) 基 为 























pils) = cos(ins), 其 中 sel[l0,1] 且 i=0,1,.….,N。 
























































粗略 编码 (Coarse Coding): 状态 空间 可 以 从 高 维 缩减 到 低 维 ， 例 如 








一 个 区 域 覆 盖 决 


定 过 程 (Determination Process) 来 进行 二 值 化 表示 〈Binary Representation)， 这 被 称 为 





粗略 编码 。 





瓦 式 编 码 (Tile Coding): 在 粗略 编码 中 ， 瓦 式 编码 对 于 多 维 连 续 空间 是 一 种 高 效 的 特 
征 表示 方式 。 瓦 式 编码 中 特征 的 感知 域 (Receptive Field) 被 指定 成 输入 空间 的 不 同 分 
















































































i 〈Partitions )。 每 一 个 分 割 称 为 一 个 瓦 面 (Tilling)， 而 分 割 中 的 每 一 个 元 素 称 为 一 个 
瓦 片 (Tile)。 许 多 有 着 重合 感知 域 的 瓦 面 往往 被 结合 使 用 ， 以 得 到 实际 的 特征 矢量 。 








Ee) 62M (Radial Basis Functions, RBF): Ase Zi Ep ARIZ 45 SHAR OS, T 
























































咯 编码 是 二 值 化 的 ， 而 径 向 基 函 数 可 用 于 [0,1] 内 的 连续 值 特征 。 典 型 的 RBF 是 以 高 


斯 函数 (Gaussian) 的 形式 ¢;(s) = exp- EZS), 3th s 是 状态 ，c; 是 特征 的 原型 








(Prototypical) 或 核心 状态 〈Center State), Ti e; 是 特征 宽度 〈Feature Width). 


性 方法 (Non-Linear Methods): 


T 














人 工 神 经 网 络 CArtificial Neural Networks): 不 同 于 以 上 的 函数 拟 合 方法 , 人 工 神经 网 络 
被 广泛 用 作 非 线性 函数 拟 合 器 ， 它 被 证 明 在 一 定 条 件 下 有 普遍 的 拟 合 能 力 (Universal 





























Approximation Ability) (Leshno et al., 1993)。 基 于 深度 学 习 技术 ， 人 工 神经 网 络 构成 了 
现代 基于 函数 拟 合 的 深度 强化 学 习 方 法 的 主体 。 一 个 典型 的 例子 是 DQN 算法 ， 使 用 
























































人 工 神 经 网 络 来 对 Q 值 进行 拟 合 。 


。 其 他 方法 : 



































决策 树 (Decision Trees): 决策 树 (Pyeatt et al., 2001) 可 以 用 来 表示 状态 空间 ， 通 过 使 
用 决策 节点 (Decision Nodes) 对 其 分 割 。 这 构成 了 一 种 重要 的 状态 特 行 








ERAN TT IE 

















最 近邻 《Nearest Neighbor) 方法 : 它 测 量 了 当前 状态 和 内 存 中 之 前 状态 的 差异 ， 并 用 








内 存 中 最 接近 状态 的 值 来 近似 当前 状态 的 值 。 
































使 用 价值 函数 拟 合 的 好 处 不 仅 包括 可 以 扩展 到 大 规模 任务 ， 以 及 便于 在 连 
行 从 所 见 状 态 到 未 见 过 状态 的 泛 化 ， 而 且 可 以 减少 或 缓解 人 为 设计 特征 来 表示 
于 无 模型 方法 ， 拟 合 器 的 参数 w 可 以 用 蒙特 卡 罗 (Monte-Carlo, MC) 或 时 间 差 
样本 进行 参数 更 新 而 非 像 基 于 表格 上 
计算 效率 。 对 基于 模型 的 方法 ， 参 数 可 以 用 动态 规划 
(Dynamic Programming, DP) 来 更 新 。 关 于 MC、TD 和 DP 的 细节 在 之 前 已 经 有 所 介绍 。 

可 能 的 函数 拟 合 器 包括 特征 的 线性 组 合 、 神 经 网 络 、 决 策 树 和 最 近邻 方法 等 。 神 经 网 络 因 其 














Difference, 


更 新 。 这 使 得 处 理 大 规模 问题 时 有 较 高 上 
























































TD) 学 习 来 更 新 ， 可 以 对 批 


fit 




















cr 

































































续 状 态 空 间 中 进 
状态 的 需要 。 对 











4] (Temporal 


的 方法 一 样 逐个 















































很 好 的 可 扩展 性 和 对 多 样 函数 的 综合 能 力 而 成 为 深度 强化 学 习 方法 中 最 实用 的 拟 合 方法 。 神 经 网 
络 是 一 个 可 微分 方法 ， 因 而 可 以 基于 梯度 进行 优化 ， 这 提供 了 在 凸 〈Convex) K 


最 优 的 保 订 
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FE。 然而 ， 实 践 中 ， 它 可 能 需要 极 大 量 的 数据 来 训练 ， 而 且 可 能 造成 其 











数 情况 下 收敛 到 


他 

















困难 。 














2.7 策略 优 


化 








将 深度 学 习 问 题 扩展 到 强化 学 习 带 来 了 额外 的 挑战 ， 包 括 非 独立 同 分 布 (Not Independently 
and Identically Distributed〉 的 数据 。 绝 大 多 数 监 督学 习 方法 建立 在 这 样 一 个 假设 之 上 ， 即 训练 
据 是 从 一 个 稳定 的 独立 同 分 布 (Schmidhuber, 2015) 中 采样 得 到 的 。 然 而 ， 强 化 学 习 中 的 训练 数据 
























































通常 包括 高 度 相 关 的 样本 ， 它 们 是 在 智能 体 和 环境 交互 中 | 




















独立 性 条 件 。 更 粮 的 是 ， 强 化 学 习 中 的 训练 数据 分 布 通常 是 不 稳定 的 ， 因 为 价值 函数 经 常 根据 
前 策略 来 估计 ， 或 者 至 少 受 当前 策略 对 状态 的 访问 频率 影响 ， 而 策略 是 随 训练 一 直 在 更 新 的 。 
能 体 通 过 对 在 状态 空间 探索 不 同 部 分 来 学 习 。 所 有 这 些 情况 违反 了 样本 数据 来 自 同 分 布 的 条 件 。 









































在 强化 学 习 中 使 用 价值 函数 拟 合 对 表征 方式 





























数 


页 序 得 到 的 ， 而 这 违反 了 监督 学 习 中 的 


M 













































































出 有 一 些 实际 要 求 ， 而 如 果 没 有 适当 地 考虑 到 
些 实际 要 求 , 将 可 能 导致 发 散 的 情况 的 发 生 (Achiam et al., 2019)。 有 具体 来 说 , 不 稳定 性 和 发 散 带 
的 危险 在 以 下 三 个 条 件 同 时 发 生 时 就 会 产生 : (1) 在 一 个 转移 分 布 (Distribution of Transitions) 上 






































训练 ， 而 这 个 分 布 不 满足 由 一 个 过 程 自然 产生 























这 个 过 程 的 期 望 值 被 估计 〈 比 如 在 离线 学 习 ! 

















的 条 件 ;(2) 可 扩展 的 函数 拟 合 ， 比 如 ,线性 半 梯 度 ( 
比如 DP 和 TD 学 习 。 这 三 个 主要 属性 只 有 在 它们 被 结合 
三 件 套 (the Deadly Triad) (Van Hasselt et al., 2018)。 在 使 月 
基于 价值 的 方法 使 用 函数 拟 合 时 可 能 会 有 过 估计 或 欠 
例 来 说 ， 原 始 DQN A Q 值 过 估计 COver-Estimation? 的 问题 (Van Hasselt et al., 2016)， 这 在 实践 
中 会 导致 略 差 的 学 习 表 现 ， 而 Double/Dueling DQN 技术 被 提 H 
了 更 好 的 收敛 全 


































































































策略 梯度 的 基于 策略 的 方法 相 比 基 于 价值 的 方法 





基于 梯度 的 价值 函数 拟 合 


考虑 参数 化 的 价值 函数 Vr(s) = VT (s; w) 8& Q7(s,a) = Q@r(saiu)， 我 们 可 以 基于 不 同 的 估 
计 方 法 得 到 相应 的 更 新 规则 。 优 化 目标 被 设置 为 估计 函数 VT (s; w) CER Q7 (s, a; w) 和 真实 价值 







































































Semi-Gradient); (3) 


智 





这 
来 



































) 


32i$ (Bootstrapping), 
时 会 导致 学 习 的 发 散 ， 而 这 被 称 为 死亡 





月 函数 拟 合 的 方式 不 足够 公正 的 情况 
tiit COver-/Under-Estimation) 的 问题 。 











来 缓解 这 个 问题 。 总 体 来 说 ， 使 用 





保证 。 











函数 wxr(s) CB gx (s,a)) 间 的 均 方 误差 (Mean-Squared Error, MSE): 





J(w) = Ex[(V"(s; w) — v«(s))] 




















J(w) = Ex[(Q*(s,4; w) — q= (s, a))’] 
































Aw = a(V"(s; w) — v,(s)) VV" (s; w) 





对 此 ， 用 随机 梯度 下 降 (Stochastic Gradient Descent) 法 所 得 到 的 梯度 为 


M 
, 


x 























(2.85) 


(2.86) 


(2.87) 
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Aw = a(Q" (s, a; w) — qr (8, 4))VwQ" (s, a; w) (2.88) 











其 中 梯度 对 批 中 的 每 一 个 样本 进行 计算 ， 而 权重 以 一 种 随机 的 方式 进行 更 新 。 的 目 
标价 值 函数 vr 或 qu 通常 是 被 估计 的 ， 有 时 使 用 一 个 目标 网 络 (DQN 中 ) 或 一 个 最 大 化 算 子 
(Q-Learning H) 等。 我 们 在 这 里 展示 价值 函数 的 一 些 基 本 估计 方式 。 






































































































































对 MC 估计 ， 目 标 值 是 用 采样 的 回报 G 估计 的 。 因 此 ， 价 值 函数 参数 的 更 新 梯度 为 










































































Aw; = a(V™ (85; wi) — Gi) Vw, V" (Ss; ux) (2.89) 
或 
Aw, = a(Q" (Si, Ar; we) — Gi+1)V w Q7 (St, At; wi) (2.90) 
对 TD(0), 根 据 式 (2.84) 表 示 的 贝尔 曼 最 优 方程 ,目标 值 是 时 间 差分 的 目标 函数 Re 十 yYVi (Stt; We)» 
因此 : 
Aw, = o(V* (St; we) — (Re + WV (Sici w))) Vw, V" (St; we) (2.91) 
或 
Aw, = a(Q" (Si, Ar; we) — (Retr + YQs (Stt, Aca wi) Vw Q" (St, At; wi) (2.92) 
对 TD()， 目 标 值 是 4- 回报 即 G4， 因此 更 新 规则 是 
Aw; = a(V" (Sy; we) — G2)V w V” (Sy; we) (2.93) 
或 
Aw, = a(Q" (S, Ar; we) — Gr?) Vu, Q" (Sy, Ar; w) (2.94) 

















不 同 的 估计 方式 对 偏差 和 方差 有 不 同 的 侧重 
估计 方法 等 。 


这 在 之 前 的 小 节 中 已 经 有 所 介绍 ， 比 如 MC 和 TD 
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例子 : 深度 Q 网 络 



































深度 Q 网 络 (DQN) 是 基于 价值 优化 的 典型 例子 之 一 。 它 使 用 一 个 深度 神经 网 络 来 对 Q- 
Learning 中 的 Q 值 函数 进行 拟 合 ， 并 维护 一 个 经 验 回放 缓存 (Experience Replay Buffer) 来 存储 





























智能 体 -环境 交互 中 的 转移 样本 。DQN 也 使 用 了 一 个 目标 网 络 QT， 而 它 由 原 网 络 Q NSB 


























本 





ns 














来 参数 化 ， 并 且 以 一 种 延迟 更 新 的 方式 ， 来 稳定 学 习 过 程 ， 也 即 缓解 深度 学 习 中 非 独立 同 分 布 数 















































据 的 问题 。 它 使 用 如 式 (2.88) 中 的 MSE 损失 ， 以 及 
代 真 实 价值 函数 dao 
































贪心 的 拟 合 函数 7 十 ymaxa, QT (s', a^) 蔡 




















经 验 回 放 缓 存 为 学 习 提供 了 稳定 性 ， 因为 从 缓存 ! 
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自 先前 策略 的 样本 间 的 差异 。 








2.7.3 ”基于 策略 的 优化 


在 开始 介绍 基于 策略 的 优化 (Policy-Based Optimization) 之 前 ， 我 们 首先 介绍 在 强化 学 习 : 


























采样 到 的 随机 批量 样本 可 以 缓解 非 独立 同 








分 布 的 数据 问题 。 这 使 得 策略 更 新 成 为 一 种 离线 的 (Off-Policy) 方式 ， 由 于 当前 策略 和 缓存 中 来 





























常见 的 一 些 策略 。 如 之 前 小 节 中 所 介绍 ,强化 学 习 中 的 策略 可 以 被 分 为 确定 性 (Deterministic) 和 
BENLE (Stochastic) 策略 。 在 深度 强化 学 习 中 ， 我 们 使 用 神经 网 络 来 表示 这 两 类 策略 ， 称 为 参数 












































化 策略 〈Parameterized Policies)。 具 体 来 说 ， 这 里 的 参数 化 指 抽象 的 策略 用 神经 网 络 〈 包 括 单 层 
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感知 机 ) 参数 来 ， 而 非 其 他 参量 来 表示 。 使 用 神经 网 络 参数 0， 确 定性 和 随机 性 策略 可 以 分 别 写 











VE A, = po (St) 和 Ay ~ Toll St) 



































在 深度 强化 学 习 领 域 ， 有 一 些 常 见 的 具体 分 布 用 来 表示 随机 性 策略 中 的 动作 分 布 : 伯 努 利 
4y4i (Bernoulli Distribution) ， 类 别 分 布 〈Categorical Distribution) 和 对 角 高 斯 分 布 (Diagonal 
























































Gaussian Distribution )。 伯 努 利和 类 别 分 布 可 以 用 于 离散 动作 空间 ， 如 二 值 的 (Binary) 或 多 类 别 






































Hj CMulti-Category). T 


























被 用 于 
它 可 以 用 作 二 值 化 动作 策略 CBinary-Action Policy). 























KJ 












































对 角 高 斯 分 布 可 以 用 于 连续 动作 空间 。 
一 个 以 9 为 参数 的 单 变量 z e {0,1} 的 伯 努 利 分 布 为 P(s;9) = 097(1 一 9)(1-”)。 因 而 它 可 以 
表示 二 值 化 的 动作 ， 可 以 是 单 维 ， 也 可 以 是 多 维 ( 对 一 个 矢量 中 含 多 个 变量 的 情况 应 用 )， 






















































































类 别 型 策略 (Categorical Policy) 使 用 类 别 分 布 作为 它 的 输出 ， 因 而 可 以 用 于 离散 且 有 限 的 














出 在 有 限 动 作 空间 中 每 个 动作 的 概率 ， 比 如 r(als) 





动作 空间 ， 它 将 策略 视 为 一 个 分 类 器 (Classifier), DORA AE (Conditioned on A State) 而 输 


























P|A,—a|S, = s]。 所 有 概率 和 为 1， 因此 ， 
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当 将 类 别 型 策略 参数 化 时 ， 最 后 输出 层 〈Output Layer) 常用 Softmax 激活 函数 。 这 里 我 们 具体 使 
] PI] 矩阵 表示 有 限 动作 空间 的 情况 ， 来 替代 概率 函数 p(:|:)。 智 能 体 可 以 根据 类 别 分 布 采样 















































选择 一 个 动作 。 实 践 中 ， 这 种 情况 下 的 动作 通常 可 以 编码 为 一 个 独 热 编 码 矢量 (One-Hot Vector) 























ai 二 (0,0,… ,1,… ,0), 这 个 矢量 跟 动作 空间 有 相同 的 维度 ,从 而 a; © p(-|s) 给 出 p(ai|s)， H 
























































O 是 逐个 元 素 的 乘积 (Element-Wise Product) 算 子 , 而 p(-|s) 是 给 定 状态 s 时 的 矩阵 中 的 一 个 矢量 
〈 行 或 列 ， 依 状态 动作 顺序 而 定 )， 而 这 通常 也 是 归 一 化 后 类 别 型 策略 的 输出 层 。 耿 贝尔 -Softmax 
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函数 技巧 (Gumbel-Softmax Trick) 可 以 在 实践 中 参数 化 类 别 型 策略 后 用 来 保持 类 别 分 布 采 样 过 
程 的 可 微 性 。 在 没有 使 用 其 他 技巧 的 情况 下 ， 有 采样 过 程 或 像 arg max 类 操作 的 随机 性 节点 往往 
是 不 可 微 的 (Non-Differentiable) ， 从 而 在 对 参数 化 策略 使 用 基于 梯度 的 优化 〈 在 随后 小 节 中 介 
绍 ) 时 可 能 是 有 问题 的 。 

耿 贝 尔 -Softmax 函数 技巧 (Gumbel-Softmax Trick): 首先 ， 耿 贝尔 -最 大 化 技巧 (Gumbel-Max 
Trick) 允许 我 们 从 类 别 分 布 x 中 采样 

















































































































z = one_hotlarg max(z; + log 7i)] (2.95) 











其 中 “one_hot” 是 一 个 将 标量 转换 成 独 热 编码 矢量 的 操作 。 然 而 ， 如 上 所 述 ，arg max 操作 通常 
是 不 可 微 的 。 因 此 ， 在 耿 贝 尔 -Softmax 函数 技巧 中 ， 一 个 Softmax 操作 被 用 来 对 耿 贝 尔 - 最 大 化 技 
巧 中 的 argmax 进行 连续 性 近似 : 



























































NS exp((log z; + gi)/7) ,Vi = 0,... ,k (2.96) 
do, exp((logm; + g;)/T 


其 中 天 是 欲求 变量 g《〈 强 化 学 习 策略 的 动作 选择 ) 的 维度 ， 而 gi 是 采样 自 耿 贝尔 分 布 (Gumbel 
Distribution) 的 耿 贝 尔 (Gumbel) 变量 。 耿 贝尔 (0,1) 分 布 可 以 用 逆 变 换 〈JInverse Transform) 采 
样 实现 ， 通 过 采样 均匀 分 布 u ~ Uniform(0,1) 并 计算 g = —log(—log(u)) 得 到 。 

对 角 高 斯 策略 (Diagonal Gaussian Policy) 输出 一 个 对 角 高 斯 分 布 的 均值 和 方差 用 于 连续 动 
芷 空间 。 一 个 普通 的 多 变量 高 斯 分 布 包括 一 个 均值 矢量 jw 和 一 个 协 方差 《Covariance) FERED, 
而 对 角 高 斯 分 布 是 其 特殊 情况 ， 即 协 方差 矩阵 只 有 对 角 元 非 零 ,因此 我 们 可 以 用 一 个 矢量 or 来 表 
示 它 。 当 使 用 对 角 高 斯 分 布 来 表示 概率 性 动作 时 ， 它 移 除 了 不 同 动作 维度 间 的 协 相 关 性 。 一 个 策 
咯 被 参数 化 时 ， 如 下 所 示 的 再 参数 化 〈Reparametrization ) 技巧 (与 Kingma et al. (2014) 提出 的 变 
分 自动 编码 器 中 类 似 ) 可 以 被 用 来 从 均值 和 方差 矢量 表示 的 高 斯 分 布 中 采样 ， 同 时 保持 操作 的 可 
微 性 。 
再 参数 化 技巧 : 从 对 角 高 斯 分 布 中 采样 动作 a ~ N (jwo,o3)， 该 分 布 的 均值 和 方差 矢量 为 ne 
和 og 〈 人 参数 化 的 )， 而 这 可 以 通过 从 正 态 分 布 中 采样 一 个 隐藏 矢量 z ~ N (0, D) 来 得 到 动作 : 
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dca arid (2.97) 








其 中 © 是 两 个 相同 形状 矢量 的 逐个 元 素 乘 积 。 

深度 强化 学 习 中 的 常用 策略 如 图 2.19 所 示 ， 便 于 读者 理解 。 

基于 策略 的 优化 〈Policy-Based Optimization) 方法 在 强化 学 习 情 景 下 直接 优化 智能 体 的 策略 
而 不 估计 或 学 习 动 作价 值 函数 。 采 样 得 到 的 奖励 值 通常 用 于 改进 动作 选择 的 优化 过 程 ， 而 优化 过 
程 可 以 使 用 基于 梯度 或 无 梯度 (Gradient-Free) 的 方法 。 其 中 ， 基 于 梯度 的 方法 通常 采用 策略 梯 


































































































































































































90 


2.7 策略 优化 











FE (Policy Gradient)， 它 在 某 种 程度 上 代表 了 连续 动作 强化 学 习 最 受 欢 迎 的 一 类 算法 ， 受 益 于 对 


高 维 情况 的 可 扩展 性 。 典 型 的 基于 梯度 优化 方法 包括 REINFORCE 等 。 无 梯度 方法 对 策略 搜索 : 































































































相对 简 














六 的 情况 

















通常 有 更 快 的 学 习 过 和 









































AE X. CCross-Entropy, CE) 方法 等 。 














IT 








回想 我 们 在 强化 学 习 ， 
计 折 扣 奖 励 (Cumulative Discounted Reward)， 可 以 将 其 表 


R(T) = Deo Y Ri 是 有 














WE. RIH 


深度 强化 学 习 中 的 常用 策略 ( 













































































算法 和 CE 方法 的 例子 。 


基于 梯度 的 优化 


基 了 





升 )， 以 改进 策略 ， 而 这 个 





名 2.19 














作 策 略 梯度 (Policy Gradient), 


























et al., 2000) 和 文献 (Silver et al., 2014) 





ETE FB 








介绍 。 











注 : 





确定 性 策略 











呈 ， 无 须 有 复杂 计算 的 求 导 过 程 。 典 型 的 无 梯度 类 方法 包括 





高 斯 分 布 
其 他 : 自 回 妇 策 略 等 


二 值 化 动作 策略 
随机 性 策略 类 别 型 策略 


深度 强化 学 习 中 的 不 同 策略 类 型 


智能 体 的 


R GER 

















J(n) = Ez. |R(1)] 














目标 是 从 期 望 或 估计 的 角度 去 最 大 化 从 一 个 状态 开始 的 累 
示 为 














(2.98) 


HPS Sa) 的 折扣 期 望 奖励 ， 而 7 是 采样 的 轨迹 。 














于 梯度 的 或 无 梯度 的 方法 ， 来 优化 策 

















基于 策略 的 优化 方法 将 根据 以 上 目标 函数 J(r) 通过 基 
和 先 介 绍 基于 梯度 的 方法 ， 并 给 出 一 个 REINFORCE 法 的 例子 ， 随 后 介绍 无 梯度 的 














梯度 的 优化 方法 是 使 用 在 期 望 回报 〈 总 的 奖励 ) 
期 望 回报 是 从 采样 轨迹 中 得 到 的 。 这 里 我 们 把 关于 策略 参数 的 梯度 叫 


























体 表达 式 如 下 : 


A0 = aVoyJ(ro) 








而 表示 








量 。 然 而 ， 这 里 我 们 





使 用 


























xk, 而 这 种 简 生 











PLAS) ES TU TE SC 











n 




















上 的 梯度 估计 来 进行 梯度 下 降 (或 上 





























(2.99) 





0 表示 策略 参数 , 而 a 是 学 习 率 。 基 于 策略 参数 的 梯度 计算 方法 叫 作 策略 梯度 法 。 文 献 (Sutton 











提出 的 策略 梯度 定理 (Policy Gradient Theorem) 及 其 证 明 





式 (2.99) 中 参数 0 的 表示 方法 实际 上 是 不 合适 的 ， 








根据 本 书 默认 的 格式 ， 它 应 当 是 9 从 


























本 的 0 格式 作为 一 种 可 以 在 使 用 模型 参数 时 替代 的 8 的 方 

















常见 。 一 种 考虑 这 种 写法 合理 性 的 方式 是 : 参数 的 梯度 可 以 对 
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每 个 参数 分 别 得 到 ， 而 每 个 参数 均 可 单独 表示 为 0， 只 要 方程 对 所 有 参数 相同 ， 它 就 可 以 用 0 来 
表示 所 有 参数 。 本 书 的 其 余 章节 将 遵循 以 上 声明 。 


定理 2.2 策略 梯度 定理 









































T 
VoJ (To) = Ec, | >》 Vo(log mo(ArlSt))Q” (St, Ar) (2.100) 
t=0 
— Es, pr Aienol V0 (log ro Ac[S«)) Q7* (Si, A1)] (2.101) 
其 中 第 二 项 需 定义 折扣 状态 分 布 (Discounted State Distribution) p” = fs 3 oY" pols) 
p(s'|s,t,7)ds, m p(s'|s,t, m) 是 在 策略 下 第 t 个 时 间 步 从 s 到 s/ Port (Transition Proba- 


bility), ŽL x: ak (Silver et al., 2014). 













































































策略 梯度 定理 对 随机 性 策略 和 确定 性 策略 都 适用 。 它 起 初 由 Sutton 等 人 (Sutton et al., 2000) 
为 随机 性 策略 而 提出 ， 后 被 Silver 等 人 (Silver et al., 2014) 扩展 到 确定 性 策略 。 对 确定 性 的 情况 ， 
尽管 确定 性 策略 梯度 (Deterministic Policy Gradient, DPG) 定理 (后 续 介 绍 ) 与 上 述 策略 梯度 定 
理 看 起 来 不 同 ， 实 际 上 可 以 证 明确 定性 策略 梯度 只 是 随机 性 策略 梯度 (Stochastic Policy Gradient, 
SPG) 的 一 种 特殊 (极限 ) 情况 。 若 用 一 个 确定 性 策略 uo: S 一 4 和 一 个 方差 参数 o 来 参数 化 
随机 性 策略 mius, MA o = 0 时 随机 性 策略 等 价 于 确定 性 策略 ， 即 mu, o = p. 

(1) 随机 性 策略 梯度 
首先 我 们 对 随机 性 策略 证 明 策 略 梯度 定理 ， 因 而 被 称 为 随机 性 策略 梯度 方法 。 为 了 简便 ， 在 
本 小 节 中 ， 我 们 假设 有 限 MDP 下 的 片段 式 (Episodic) 设 定 ， 每 个 轨迹 长 度 固定 为 全 十 1。 考 虑 
一 个 参数 化 的 随机 性 策略 re(als)， 对 以 po(So) 为 初始 状态 分 布 的 MDP 过程， 有 轨迹 的 概率 为 
p(T|7) = po(So) Tyo PSl Se At)n(Ai|S1)， 因 而 可 以 得 到 基于 参数 化 策略 re 的 轨迹 概率 的 对 
Zi (Logarithm) 为 
























































La 
































































































































T 
log p(|0) = log po(So) + (tox (S15 At) + tog mo( A/S). (2.102) 
t=0 
我 们 也 需要 对 数 -导数 技巧 (Log-Derivative Trick): Vop(7|0) = p(T7|9)Vo log p(7|0) 得 到 轨迹 概率 
对 数 (Log-Probability) 的 导数 为 





T 
Vo log p(T|0) = Vo log po(So) + 5 (v. log p(Si41|S;, At) + Vo loss (A0) (2.103) 
t=0 
工 


= 》 Vo log m9(Ar|S1). (2.104) 
t=0 
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其 中 包含 po(So) 和 p(Sii|S;, Ar) 的 项 被 移 除 ， 因 为 它们 不 依赖 于 参数 9， 尽管 是 未 知 的 。 


















































J (re) = "rne [R(7)] = EL 
























































其 中 了 = (So, Ao, Ro,… , Sr, Ar, Rr, S741) B. R(7) = Deg Rie BETA A BEE EMR BML 0 E 
进行 梯度 上 升 来 逐渐 改进 策略 rs 的 表现 。 


回想 之 前 介绍 过 ， 学 习 目 标 是 最 大 化 期 望 累计 奖励 (Expected Cumulative Reward): 














T 
= 5 Eroro [Ri] , (2.105) 
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注意 Ri 只 依赖 Tt» 其 Tt = (So, Ao, Ro, +> , St, At, Re, S141)。 



































VoE,~mo [Ri] = Vo 1 FRap(r;|0)d7. 展开 期 户 (2.106) 
» f B Napiriló des 对 换 梯度 和 积分 (2.107) 
= f Rip(7|0)V o log p(7;|0)d7; 对 数 -导数 技巧 (2.108) 
= ake [Ri Vo log p(7:|4)] 回归 期 望 形 式 (2.109) 
































上 面 第 三 个 等 式 是 根据 之 前 介绍 的 对 数 -导数 技巧 得 到 的 。 


将 上 面 式 子 代入 到 I(r), 


VJ (nro) = me 





现在 我 们 需要 计算 Vologpe(r), K 
































T 
Emi] . 
t=0 





























polTe) 依赖 于 策略 re 和 模型 p(Ri, Sii [S7 At) WA 














实 值 ， 而 该 模型 对 智能 体 是 不 可 用 的 。 柱 运 的 是 ， 为 了 使 用 策略 梯度 方法 ,我 们 只 需要 log po(7i) 
的 梯度 而 不 是 它 本 身 的 值 ， 而 这 可 以 简单 地 用 m, = Tot BR (2.104) 中 的 了 = Tor 而 得 到 下 式 : 



















































































t 
Vo log p(7|0) = V Vo log o(Av|Sv). (2.110) 
t'=0 
从 而 
T $ 
VoJ (T0) = Ec, |X RiVo 》 log To(Av| Sv) 
t=0 t’=0 
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工 














TNTE 





t'=0 


5 Vo log TE (Avl Sy) 5 Ri T 





这 里 最 后 一 个 等 式 是 加 法 重 排 CRearranging the Summation). 














注意 ,我 们 在 以 上 推导 过 程 中 使 用 

















置换 (都 是 合理 的 )， 如 下 : 


VJ (8) 一 Vo 








的 累计 奖励 取 期 望 : 


Vol (To) = Vo 




















J [R(7)] = Ve 

















Uus RIT) 





egy J p(r|8)R(r) 


z | Vop(r|0)R(r) 














ino | V o log p(T|0) R(T) 





> VJ (8) = 





ITNT 


T 
5 Vo log To (A: 
t=0 














T 
p3 Vologro(4， 


AT NT 








t=0 








仔细 的 读者 可 能 注意 到 式 2.119) 的 第 二 个 结果 与 式 (2.111) 的 第 














来 说 ， A 





计 奖 励 的 时 间 范 


围 是 不 同 的 。 第 














来 评估 动作 ， 而 第 二 个 
包括 选择 那个 动作 之 前 的 奖 
到 数学 上 
略 梯度 的 过 程 中 直接 丢掉 局 








行 估计 ， 而 这 也 得 
以 在 推导 策 
奖励 (Reward-to-Go)” 








的 读者 可 以 参考 相关 资料 。 这 里 的 两 种 导出 方式 也 可 以 作为 两 个 结果 等 价 性 的 论证 。 


上 述 公式 中 的 V 称 “nabla”， 和 数学 领域 有 着 三 重 意义 的 算 子 〈 梯 度 、 散 度 、 
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使 用 
励 。 
的 证 明 ， 即 





结果 























下 p(7|0)Vo log p(r|8)R(r) 


Se) R(7) 


T 
S) MR, 
t'—0 





了 加 法 和 期 望 之 间 的 置换 ， 以 及 


其 最 终 在 式 (2.106) 中 对 长 度 为 +t 十 1 的 部 分 轨迹 元 进行 积分 。 








整个 轨迹 上 的 累计 奖励 og Re 来 评 






































T 
(2.111) 
t=t’ 
期 望 和 加 法 与 求 导 之 间 的 
T 
= > VeE rane [Fi] (2.112) 
t=0 


然而 ,也 有 其 他 方式 来 对 整个 轨迹 





















































(2.113) 

展开 期 望 (2.114) 
SHOES SERVER (2.115) 
对 数 -导数 技巧 (2.116) 
回归 期 望 形式 (2.117) 
(2.118) 

(2.119) 

个 结果 有 一 些 差别 。 具 体 


一 个 结果 只 使 用 了 动作 hi 之 后 的 累计 未 来 奖励 Diy Ri 








估 该 轨迹 上 的 每 个 动作 Ay 





直觉 上 ， 一 个 动作 不 应 该 | 
这 个 动作 之 前 的 奖励 对 最 
了 些 过 去 的 奖励 值 来 得 到 式 (2.111), 而 这 被 称 为 “将 得 到 


























j 这 个 动作 执行 以 前 的 奖励 值 来 对 其 进 








策略 梯度 。 这 里 我 们 不 给 出 两 利 














~ A 





"AE 














2H 


IN 


有 零 影 响 。 因 此 可 
| 的 
各 梯度 公式 等 价 性 的 严格 证 明 ， 感 兴趣 


望 梯度 只 





















































eG XE 


个 物 到 




















2.7 策略 优化 



































和 旋 度 ) ， 依 据 它 做 操作 的 对 象 而 定 。 而 在 计算 机 领域 ， 这 个 “nabla” 算 子 V 通常 用 作 偏 微分 
(Partial Derivative)， 其 对 紧 跟 的 对 象 中 显 式 〈Explicitty) 包含 的 变量 进行 求 导 ， 而 这 个 变量 写 在 
算 子 脚 标的 位 置 。 由 于 上 式 中 的 R(7) 不 显 式 包含 9， 因此 Ve 不 作用 于 RO) SE r 可 以 隐 式 
(Implicitly) 依赖 于 0 GRH MDP 的 图 模型 )。 我 们 也 注意 到 式 (2.119) 的 期 望 可 以 用 采样 均值 来 
估计 。 如 果 我 们 收集 一 个 轨迹 的 集合 D = {7i}i=1,.…,N， 而 其 中 的 轨迹 是 通过 使 智能 体 以 策略 re 
在 环境 中 做 出 动作 来 得 到 的 ， 那 么 策略 梯度 可 以 用 以 下 方式 估计 : 





































































































































































































T 

- 1 

I= m > > Vo log To (AlS) R(T), (2.120) 
TED t=0 






































EGLP (Expected Grad-Log-Prob) 引 理 在 策略 梯度 优化 中 经 常用 到 ， 所 以 我 们 在 这 里 介绍 它 。 
引 理 2.2 EGLP 引 理 : 假设 pe 是 随机 变量 r 的 一 个 参数 化 的 概率 分 布 ， 那 么 有 














Vs po [V 6 log Po(x)] = 0. (2.121) 











WEBB: 由 于 所 有 概率 分 布 都 是 归 一 化 的 : 







































































| po(x) — 1. (2.122) 

对 上 面 归 一 化 条 件 两 边 取 梯 度 : 
Ve | pox) = Vol — 0. (2.123) 

使 用 对 数 -导数 技巧 得 到 : 
0= Ve J o (2.124) 
= f Vopo(z) (2.125) 
= f po(z) Vo log po(z) (2.126) 
7.0 = Ez ps [Vo log po(x)). (2.127) 
从 EGLP 引 理 我 们 可 以 直接 得 出 : 

EA, mo [Vo log ro (A S;)b(,)] = 0. Q.128) 




















其 中 b(S;) 称 为 基准 〈Baseline)， 而 它 是 独立 于 用 于 求 期 望 值 的 未 来 轨迹 的 。 基 准 可 以 是 任何 一 
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个 只 依赖 当前 状态 的 函数 ， 而 不 影响 优化 公式 中 的 总 期 望 值 。 
上 面 公式 中 的 优化 目标 最 终 为 

























































































































































































































































































T 
VoJ(r9) = Ez, | >》 Vo log mo(AiS;) (7) (2.129) 
t=0 
我 们 也 可 以 更 改 整个 轨迹 的 奖励 R(7) 为 在 t 时 间 步 后 将 得 到 的 奖励 Gy: 
T 
Vo J (T0) = Ez, | >》 Vo log ro(AiS:)Gs (2.130) 
t=0 
通过 以 上 EGLP 引 理 ， 期 望 回报 可 以 被 推广 为 
T 
VoJ (To) = Ec, | >》 Vo log ro(At|Se) Pt (2.131) 
t=0 
其 中 D, = Y (R( Sv, av, Sv-41) — (0) 
为 了 便于 实际 使 用 ，GBi 可 以 变 成 以 下 形式 : 
$, = Q"* (St, At) (2.132) 
或 
B, = A™ (Si, Aj) = Q™ (St, At) — V™ (S) (2.133) 
而 它们 都 可 以 证 明 等 价 于 期 望 内 的 原始 形式 ， 只 是 在 实际 中 有 不 同 的 方差 。 这 些 证 明 需 要 重复 期 
望 规则 (the Law of Iterated Expectations): 对 两 个 随机 变量 (离散 或 连续 ) A EX] = E[E[X|Y]]. 
而 这 个 式 子 很 容易 证 明 。 剩 余 的 证 明 如 下 : 
T 
VoJ (19) = Ec, |, Vo log To(4l SH) R(T) (2.134) 
t=0 
T 
= ME. [Vo log 79(At| 51) R(7)] (2.135) 
t=0 
E 
= ME, oss Enno [Vo log ro (Ail St) R(T) |r] (2.136) 
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7 策略 优化 















































R E,[] = er IE 


所 以 ， 文 献 ! 


























VoJ(no) = 


于 改变 优化 





换 句 话说 ， 它 等 价 
































‘|74]| E. 7. 


s 
= Drno 





目标 为 .J(ro) = 





























t = (9040 





























TNTE 



































来 蔡 换 原始 形式 Ei~a[R(7)]。 对 于 优化 策略 来 说 ， 实 践 中 常 月 
Error). 
根据 是 否 使 
Based) 两 类 。 对 于 无 模型 强化 学 习 ， 自 
称 策略 梯度 算法 。 而 基于 模型 的 强化 学 习 算 法 一 类 ， 也 有 

















Ti NTO Vo log To (Ay |S:) 














YE Vo log 7:9 (AlS) 


ir ve [V 0 (log 7a(At| St) )Q 


tear [Q"* 





, Si, At) 和 GT (Si, A4) = 


(St, Az)] 或 7J(ro) = 
H A"*(S,, At) 来 估计 TD- 误差 (TD 





JEG 





Bry me R(T) |T:t]] 


rono R(T)|S:, Ai] 


T (St, At)| 














T 
> vodos MAIS) 
t=0 


T 
>》 Vo (log o( Ar S:)) A”? (St, a] 
t=0 












































lal AY c] 4448 (Backpropagation Through Time, BPTT) 来 根据 一 


例子 : REINFORCE 算法 











REINFORCE 是 一 个 使 / 
而 在 REINFORCE 中 ， 它 通常 
a4* Re) 来 估计 。 














Joh (2.131) 的 随机 性 
用 轨迹 上 采样 
更 新 策略 的 梯度 为 

















t=0 t'—t 





的 奖励 值 Gi = 


策略 梯度 方法 的 算法 ， 其 ! 


Dt 


ae [A™e 





如 使 月 








个 片段 内 的 奖励 3 


Egg 























3b» Ry Vo log 7o(At|S¢) 


(2.137) 


(2.138) 


(2.139) 


rono [R(T)| St, Atle 


(2.140) 


(2.141) 


(St, Ai)] 


环境 模型 ,强化 学 习 算 法 可 以 被 分 为 无 模型 (Model-Free) 和 基于 模型 的 (Model- 
单纯 基于 梯度 的 优化 算法 可 以 追溯 至 REINFORCE 算法 , 或 
些 基 于 策略 的 算法 ， 比 


DE d 
策略 。 


Pi Es Q7 (Si, At); 
Ry AMHRA G, = 


i-i 


(2.142) 
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(2) 确定 性 策略 梯度 

以 上 介绍 的 属于 随机 性 策略 梯度 (Stochastic Policy Gradient, SPG) ， 它 用 于 优化 随机 性 策略 
"(als)， 即 用 一 个 基于 当前 状态 的 概率 分 布 来 表示 动作 的 情况 。 与 随机 性 策略 相对 的 是 确定 性 策 
K, HE a = x(s) 是 一 个 确定 性 动作 而 非 概率 分 布 。 我 们 可 以 用 类 似 于 SPG 的 方法 得 到 DPG, 
它 在 数值 上 《作为 一 种 极限 情况 ) 遵循 策略 梯度 定理 ， 尽 管 有 不 同 的 显 式 表示 。 
TE: 在 本 小 节 后 续 部 分 ， 我 们 使 用 uls) 代替 之 前 定义 的 t(s) 来 表示 确定 性 策略 ， 从 而 消除 
它 与 随机 性 策略 x(a|s) 间 的 歧义 。 
对 于 DGP 的 更 严格 和 广泛 的 定义 ， 我 们 参考 由 文献 (Silver et al., 2014) 提出 的 确定 性 策略 梯 
度 定 理 ， 即 式 (2.151)。 在 此 之 前 ， 我 们 将 逐步 介绍 确定 性 策略 梯度 定理 并 证 明 它 ， 先 用 一 种 在 线 
策略 的 方式 而 后 用 离线 策略 的 方式 ， 同 时 我 们 也 将 详细 讨论 DPG 和 SPG 间 的 关系 。 
首先 ， 我 们 定义 确定 性 策略 的 表现 目标 ， 与 随机 性 策略 梯度 求解 过 程 中 的 期 望 折 扣 奖 励 采 用 
同样 的 定义 : 









































































































































































































































































































































J(u) = Esp» A —u(8,) ELT Q.143) 
t=1 
zy ! po(s)p(s'|s, t, u) R(s', u(s")]dsds' (2.144) 
S 121 
= [ onto. utyys (2.145) 
S 





其 中 p(s'|s,t, u) = p(Sr4i)Sz, Ai)p*(Ai159:)， 第 一 个 概率 是 转移 概率 ， 而 第 二 个 是 动作 选择 概率 。 
由 于 它 是 确定 性 2 BANA p” (AlS) = 1， 因 而 p(s'|s,t, u) = p(Sti|Su n(S,)). Ibh, EX 
的 状态 分 布 是 P(S) := fs 717" po(s)r(s'|s. t, uds. 

ces ea E [Dia VTR Se, At) $1 = siu] = fs Xici Y (s! |s. t, HR s", u(s)]ds 
在 除 使 用 确定 性 策略 这 一 点 外 遵循 与 随机 性 策略 梯度 中 相同 的 定义 ， 我 们 可 以 得 










































































Co 











Ju) = [ stays (2.146) 
= 人 n S uds “po(s)p(s'|s, t, 1) R(s', u(s")]dsds' (2.147) 
S t=1 




















这 与 上 面 直接 用 折扣 奖励 的 形式 得 到 的 表示 式 是 等 价 的 。 这 里 的 关系 也 对 随机 性 策略 梯度 适 
用 ， 只 是 将 确定 性 策略 us) 蔡 换 成 随机 性 策略 m(a[s) 即 可 。 对 于 确定 性 策略 ， 我 们 有 V*(s) = 
Qx(s,A(s))， 因 为 状态 价值 对 于 随机 性 策略 是 关于 动作 分 布 的 期 望 ， 而 对 于 确定 性 策略 没有 动作 
分 布 而 只 有 单个 动作 值 。 因 此 我 们 也 有 对 于 确定 性 策略 的 如 下 表示 : 
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Ju) = [ po(s)V"(s)as (2.148) 


= ] o toys (2.149) 



































关于 表现 目标 的 不 同形 式 和 几 个 条 件 将 被 用 来 证 明 DPG 定理 。 我 们 在 这 里 列 出 这 些 条 件 如 
下 而 不 给 出 详细 的 推导 过 程 ， 相 关内 容 请 参考 文献 (Silver et al., 2014). 


。C.1 连续 导数 的 存在 性 : p(s'|s, a), Vap(s'|s, a), uols), Vouo(s), R(s, a), VaR(s, a), po(s) 对 
所 有 参数 和 变量 s, a, s' 和 x 连续 。 












































。C.2 BARE: 存在 a,b Al L EG sup, po(s) < b, sup, ss p(s'|s, a) 
< b, supa,s R(s,@) < b,supa,s,s' || Vap(s'|s, a)]| € L, sup, || VaR(s a)]| < Le 





定理 2.3 确定 性 策略 梯度 定理 : 假设 MDP 满足 条 件 C.1， 即 连续 的 Vouols), VaQ"(s,a) 和 确定 
性 策略 梯度 的 存在 性 ， 那 么 


Vode) = [ p(s) Toole)T aQ" (s; lazu ds (2.150) 


= Esp [Vouo(s)VaQ" (s, @)|a=p0(s)] (2.151) 




















WEBB: 确定 性 策略 梯度 定理 的 证 明基 本 遵循 与 文献 (Sutton et al., 2000) 的 标准 随机 性 策略 梯度 定 
里 一 样 的 步骤。 首先 ， 为 了 方便 在 后 续 证 明 中 交换 导数 和 积分 ， 以 及 积分 的 顺序 ， 我 们 需要 使 用 
两 个 引 理 ， 它 们 是 微 积 分 里 的 基本 数学 公式 ， 如 下 : 























































































































引 理 2.3 莱 布 尼 茨 积分 法 则 (Leibniz Integral Rule) : f(z,t) 是 一 个 使 得 f(a,t) 及 其 偏 导 数 
fL, t) Æ (x, t)-F ep BRE t for ERM BRM, End& alx) <t < blr), xo Xx Xa. A 
时 假设 函数 a(x) 和 bz) 都 是 连续 的 且 在 xo Sr <r 上 有 连续 导数 。 那 么 ， 对 于 zo <x, 





de) i : T 
dz Jaca) f(z,t)dt = f(z,b(z)) - 3-b(z) — f(a, a(z)) - 1-a(z) 4 ie a, (er t)dt — (2.152) 


51 2.4 富 比 尼 定 理 (Fubini’s Theorem) : (Rik X de y X o-A IRM A Co-Finite Measure 
Space), Jf EEG X x y 由 积 测度 (Product Measure) Ah (HF X de y 是 oa- 有 限 的 ， 这 个 测 
度 是 唯一 的 )。 富 比 尼 定理 声明 : wREeXKx VY TERK, PMA f X—-PD7M HK a 
Function) 且 有 


f E E (2.153) 
XXY 
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那么 


ji f(z, y)dy)dz = iE (f fes natu = f NICE (2.154) 


为 了 满足 以 上 两 个 引 理 ， 我 们 需要 C.1 所 提供 的 充分 条 件 作为 莱 布 尼 菊 积分 法 则 的 要 求 ， 即 
VHe(s) fll VaV” (s) 是 0 和 s 的 连续 函数 。 我 们 也 遵循 状态 空间 S 紧 致 性 (Compactness) 的 假 
设 ， 如 富 比 尼 定 理 所 要 求 ， 即 对 于 任何 9, |V V” (s) |VaQ (s, a) lazno) A || Vouo(s)|| Æ 
s AR (Bounded) 函数 ， 而 这 在 C.2 中 提供 。 有 了 以 上 条 件 ， 我 们 可 以 得 到 以 下 推导 : 
















































































VoV"*(s) = VeQ"* (s, uo(s)) 
= Ve(Rs, uo(s)) + [ -vp(s!|s, pio (s) V"* (s) da!) 


= Vene(s)V«R(s,a)|a-uo(s) + v f Yp(s'|s, ua(s)) V”? (s')ds' 
S 





= Von) Vs Ris. oso + | nr Ie ole) V (s) 
+ Voue(s)V op(s'|s, a) V"* (s'))ds' 
= Vepno(s)Va(R(s,a) «f yp(s'|s, a) V”? (s’)ds’)|a=p9(s)) 
S 
+ [spl s!|s,s0(s))VoV"* (sas 
S 


= Vote(s) VaQ"? (s, a)|a—u, (s) «f yp(s'|s, no (s)) VaV"" (s')ds' (2.155) 
S 














在 上 面 的 推导 中 , 羔 布 尼 次 积分 法 则 被 用 于 交换 求 导 和 积分 的 顺序 , 这 要 求 满足 p(s'|s, a), uols) 
V^ (s) 和 它们 的 导数 对 0 的 连续 性 条 件 。 现 在 我 们 用 VeYw (s) 对 以 上 公式 进行 迭代 ， 得 到 : 






































Vo V”? (s) = Vouo(s)V aQ" (s, @)|a=p0(s) 


j J n(s'|s, po (s)) Vous) Va" (8, a)la—yocey ds’ 
S 





+ | sv(s'\s,s0(s)) f aps" ns!) vo^ (sasas 
S S 
= Voko (s)V4Q"* (s, @)|a=p0(s) 


+ f pe 2 8", 1, po(s)) Vene(s )VaQ"* (s, a)la=po(s' yds" 
S 


Y | ¥ p(s ze s', 2, po(s)) Vono(s )V4Q"* (s', 8)|a-us(s') ds 
S 
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E Y osi p(s > s',t, we(s)) Voue(s )VaQ"* (s', a)| a4, (s) ds (2.156) 
S 


t=0 












































中 ， 我 们 使 用 富 比 尼 定 理 来 交换 积分 顺序 ， 而 这 要 求 [|| Vo V "^ (s)| 的 有 界 性 条 件 。 上 述 积分 ， 
包含 一 种 特殊 情况 ,对 s' = s A pls — 5 和 ,0, Me(s)) = 工 而 对 其 他 s^ 为 0。 现 在 我 们 对 修改 过 的 性 
能 目标 即 期 望 价值 函数 进行 求 时 : 




















Vous) = Vo 人 mVeG)ds 
uM 
-人 人 > PO CER a | dude 


= / p"? (s) Veuo(s)VaQ"* (s, a)|a—,, (s) ds (2.157) 
S 




















其 中 我 们 使 用 莱 布 尼 欧 积分 法 则 来 交换 求 导 和 积分 顺序 ， 需 要 满足 pols) 和 V” (s) 及 其 导数 对 
0 连续 的 条 件 ， 同 样 由 富 比 尼 定 理 交 换 积 分 顺序 ， 需 要 满足 被 积 函 数 〈Integrand) 的 有 界 性 条 件 。 
证 毕 。 

离线 策略 确定 性 策略 梯度 

除了 上 面 在 线 策略 版 本 的 确定 性 策略 梯度 (DPG) 推导 ， 我 们 也 可 以 用 离线 策略 的 方式 来 
导出 DPG， 使 用 上 面 的 DPG 定理 和 -折扣 状态 分 布 p^ (s) := fs oia 1 p(s)p (s'|s,t, u)ds- 
离线 策略 确定 性 策略 梯度 用 行为 策略 (Behaviour Policy， 即 使 用 经 验 回 放 池 时 的 先前 策略 ) 的 样 
本 来 估计 当前 策略 ， 而 这 个 策略 可 能 跟 当前 策略 不 同 。 在 离线 策略 的 设 定 下 ， 由 一 个 独特 的 行 
为 策略 8(s) A uols) 所 采集 轨迹 来 对 梯度 进行 估计 ， 相 应 的 状态 分 布 为 pz(s)， 这 不 依赖 于 策 
略 参 数 0。 在 离线 策略 情况 下 ， 人 性 能 目标 被 修改 为 目标 策略 的 价值 函数 在 行为 策略 的 状态 分 布 上 
DN Ja(uo) e p? (s)V^(s)ds = fo ps(s)Q*(s, po(s))ds， 而 原始 的 目标 遵循 式 (2.149), BP 
J(ue) = fs po(s)V*(s)ds。 注 意 ， 这 里 是 我 们 在 导出 离线 策略 确定 性 策略 梯度 中 进行 的 第 一 个 近 
似 ， p J(u) © e 而 我 们 将 在 后 面 有 另外 一 个 近似 。 我 们 可 以 直接 对 修改 过 的 目标 取 微分 
如 下 : 
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VoJa(uo) 一 LINDE (s, a) n VoQ"^ (s, a))|a=n(s)ds 
N [PON oula (s, a)ds 


= E, ^ [Vono (s)V aQ" (s, a)la=u(5)] (2.158) 




















上 面 式 子 中 的 约 等 于 (Approximately Equivalent) 符号 “2” 表示 了 在 线 策略 DPG 和 离线 策略 DPG 
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的 不 同 。 上 式 中 的 依赖 关系 需要 小 心 处 理 。 因 为 p2(s) 是 独立 于 0 的 ， 关 于 9 的 导数 可 以 进入 积 
分 中 ， 并 且 在 p?(s) EREA. Q (s, ug(a)) 实际 上 以 两 种 方式 依赖 于 9 (其 表达 式 中 有 两 个 
po?: CL) 它 依赖 于 确定 性 策略 pe 基于 当前 状态 s 所 决定 的 动作 a, 而 (2) 对 Q 值 的 在 线 策略 估计 
也 依赖 于 策略 yo 来 在 未 来 状态 下 选择 的 动作 , 如 在 QU^(s, a) = R(s,a)+ J, yp(s‘|s, a)V"* (s')ds' 
所 示 ， 所 以 这 个 求 导 需 要 分 别 进行 。 然 而 ， 第 一 个 式 中 的 第 二 项 Vo Qh? (s, a)| us) 在 近似 中 
由 于 对 其 估计 的 困难 而 被 丢掉 了 ， 这 在 离线 策略 梯度 中 有 类 似 的 相应 操作 (Degris et al., 2012)!2. 
随机 性 策略 梯度 和 确定 性 策略 梯度 的 关系 
如 式 (2.140) 所 示 ， 随 机 性 策略 梯度 与 前 文 策略 梯度 定理 中 公式 有 相同 的 形式 ， 而 式 (2.151) 
的 确定 性 策略 梯度 看 起 来 却 有 不 一 致 的 形式 。 然 而 ， 可 以 证 明 对 于 相当 广泛 的 随机 策略 ，DPG 
是 一 个 SPG 的 特殊 (极限) 情况 。 在 这 种 情况 下 ，DPG 也 在 一 定 条 件 下 满足 策略 梯度 定理 。 为 了 
实现 这 一 点 , 我 们 通过 一 个 确定 性 策略 up : S 一 A 和 一 个 方差 参数 o 来 参数 化 随机 性 策略 Tyg c 
从 而 对 o = 0 有 随机 性 策略 等 价 于 确定 性 策略 ,， 即 m, o = 4。 为 了 定义 SPG 和 DPG 之 间 的 关系 ， 
有 一 个 额外 的 条 件 需要 满足 ， 这 是 一 个 定义 常规 Delta- 近 似 〈Regular Delta-Approximation ) 的 复 
合 条 件 。 
。C.3 常规 Delta- 近 似 : H o 参数 化 的 函数 vj 被 称 为 一 个 及 GE A 上 的 常规 Delta- 近 似 , 如 果 满 
足 条 件 :(1) 对 于 a’ e 及 和 适当 平滑 的 了 ,vo 收敛 到 一 个 Delta 分 布 limoyo f4 vs (a^, a) f (a)da = 
f(a’); (2) vold, ) ARMA ALE (Lipschitz) WHA C, CA 上 得 到 支撑 ， 而 在 边 
界 上 消失 (Vanish) JF AE Cy 上 连续 可 微 ; (3) 梯度 Vv (a/,a) 总 是 存在 ; (4) 转移 不 
变性 : 对 任何 a € A a! € Riat+de€A,a’ 6 € A, FA v(a',a) =v(a' +6,a4 4). 
FETE 2.4 确定 性 策略 梯度 作为 随机 性 策略 梯度 的 极限 :考虑 一 个 随机 性 策略 True 使 得 rusc(als) = 
vs(ug(s),a), BP o 是 一 个 控制 方差 的 参数 且 vo (uols), a) 满足 C.3， 又 有 MDP 满足 C.1 和 C.2， 
那么 有 ， 

















































































































































































































































































































































































































lim VeJ (no,o) 一 VoJ (Uo) (2.159) 


这 表示 DPG 的 梯度 〈 等 号 右边 ) 是 标准 SPG (FFAA) 的 极限 情况 。 
以 上 关系 的 证 明 超出 了 本 书 的 范畴 , 我 们 在 这 里 不 做 讨论 。 细节 参考 原文 (Silver et al., 2014). 
确定 性 策略 梯度 应 用 和 变 体 
一 种 最 著名 的 DPG 算法 是 深度 确定 性 策略 梯度 (Deep Deterministic Policy Gradient，DDPG )， 
它 是 DPG 的 一 个 深度 学 习 变 体 。DDPG 结合 了 DON 和 Actor Critic 算法 来 使 用 确定 性 策略 梯度 
并 通过 一 种 深度 学 习 的 方式 更 新 策略 。 行 动 者 (Actor) 和 批判 者 〈Critic) 各 自 有 一 个 目标 网 络 
(Target Network) 来 便于 高 样本 效率 (Sample-Efficient〉 地 学 习 ， 但 是 众所周知 ， 这 个 算法 可 能 


































































































! 关 于 这 个 操作 的 细节 和 相关 论断 可 以 参考 原文 。 
2 论文 SILVER D, LEVER G, HEESS N, et al. 2014. Deterministic policy gradient algorithms[C]. 中 式 (15) 在 近似 操作 后 
HW QUEERS Va, 这 里 我 们 对 其 勘误 。 
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使 用 起 来 有 

















DDPG 算法 的 细节 


从 以 上 可 以 看 到 ， 策 | 





挑战 性 ， 





























和 实现 在 后 











op ee 
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2A 























实际 上 , 它们 使 


E, 28 
KE Ff 











了 两 种 不 同 的 估计 
分 函数 (Score Function) 估计 器 ， 而 DPG 是 路 径 











种 方式 佑 1 








EL 


-可 





于 它 在 实践 中 往往 很 脆弱 而 对 超 参数 敏感 (Duan et al., 2016)。 关 于 
详细 介 


各 梯度 可 以 用 至 少 丙 








+: SPG 和 DPG， 依 赖 于 具体 策略 类 型 。 
| 器 ,用 变 分 推 岂 (Variational Inference, VI) 的 术语 来 说 , SPG 
数 (Pathwise Derivative) 估计 器 。 


再 参数 化 技巧 使 得 来 自 价 值 函数 的 策略 梯度 可 以 用 于 随机 性 策略 ， 这 被 称 为 随机 价值 梯度 








以 表明 贝尔 曼 递 归 


和 1 步 ， 而 SVG(oo) 表示 贝尔 曼 递 归 
型 方法 ， 它 的 动作 价值 
一 个 基于 模型 的 方法 ， 它 使 用 一 个 学 















































































































































(Stochastic Value Gradients, SVG) (Heess et al., 2015)。 在 SVG 算法 中 , 一 个 A 值 通常 用 于 SVGA), 
被 展开 了 多 少 步 。 举 例 来 说 ，SVG(0) 和 SVG(1) 表示 贝尔 曼 递 归 分 别 被 展开 0 

被 沿 着 有 限 范 围 的 整个 片段 轨迹 展开 。SVG(0) 是 一 个 无 模 

是 用 当前 策略 估计 的 ， 因 此 价值 梯度 被 反 向 传播 到 策略 中 ， 而 SVGA) 是 

学 得 的 转移 模型 来 估计 下 一 个 状态 的 值 ， 如 论文 (Heess et al., 


2015) 中 所 述 。 























一 个 非常 简单 








但 有 用 的 











率 密度 p(y|z) =N 








WN 


p(x 


dà 








序 生成 样本 ， 先 采 
追踪 。 实际 上 根据 同样 的 过 程 也 可 以 得 到 从 动作 价值 函数 至 
生 策略 的 梯度 ，SVG 使 用 








那样 通过 
了 领 外 的 期 望 

















值 。 








介 值 函数 来 得 








样 e 再 以 


pin 











Se 


I 随机 i 











柔性 

















都 遵循 这 个 程序 ， 

















从 而 可 以 使 





tf xe A 


JE ELM 








,0 (a)) 写作 函数 y(x) = p(x) + o(z)e e ~ N(0, 1). 
的 方式 得 到 y， 这 使 得 对 随机 性 策略 的 采样 过 程 进行 梯度 
| 策略 间 的 反 向 传播 梯度 。 为 
了 这 个 再 参数 化 技巧 ， 并 
E Actor-Critic (Soft Actor-Critic, SAC) 和 原始 SVG (Heess et al., 2015) 算法 


策略 进行 连续 控制 。 























参数 化 技巧 (Reparameterization Trick) 的 例子 是 将 一 个 条 件 高 斯 概 


因而 我 们 可 以 按 程 











了 像 DPG 
对 随机 噪声 取 





























比如 , 在 SAC 中 ， 随 机 性 策略 被 一 个 均值 和 一 个 方差 ， 以 及 一 个 从 正 态 分 布 “Normal Distri- 














bution) ! 





> 











SAC 中 使 用 的 策略 是 一 个 Tanh 归 
参数 化 技巧 : 























用 如 下 ] 








采样 的 噪声 项 


























7T" = arg max 
T 





一 化 高 斯 


了 参数 化 。SAC 中 的 优化 目 


此 ， 价 值 函数 和 Q 值 函数 间 的 关系 变 为 




















分 








Es | 》 V (R(S:, An Si) + oH (m(-[S:))) 
t=0 








布 ， 这 与 传统 设置 不 同 。SAC : 


ag(s,€) = tanh(ug(s) + o9(s)-€),e ~ N'(0, T) 








bx RL 


(2.160) 


(2.161) 
(2.162) 





的 动作 表示 可 以 使 


(2.103) 
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由 于 SAC 中 策略 的 随机 性 ， 策 略 梯度 可 以 在 最 大 化 期 望 价值 函数 时 使 用 再 参数 化 技巧 得 到 ， 即 ; 








max Ean Q^" (s, a) — alog ro(als)] (2.164) 


= max Eeuw [Q7 (s, a(s, €)) — a log ro (a(s, €)|s)] (2.165) 























因而 ， 梯 度 可 以 经 过 Q 网 络 到 策略 网 络 ， 与 DPG 类 似 ， 即 : 


Vor B >》 (Q™ (Si, a(S,, €)) — a log To (a( Si, €)S;)) (2.166) 
S,cB 











其 使 用 一 个 采样 批 B 来 更 新 策略 ， 而 als, e) 通过 再 参数 化 技巧 来 从 随机 性 策略 中 采样 。 在 这 种 
情况 下 ， 再 参数 化 技巧 使 得 随机 性 策略 能 够 以 一 种 类 似 于 DPG 的 方式 来 更 新 ， 而 所 得 到 的 SVG 
是 介 于 DPG 和 SPG 之 间 的 方法 。DPG 也 可 以 被 看 作 SVG(O) 的 一 种 确定 性 极限 (Deterministic 
Limit). 


















































无 梯度 优化 


除了 基于 梯度 〈Gradient-Based) 的 优化 方法 来 实现 基于 策略 (Policy-Based) 的 学 习 ， 也 有 
非 基 于 梯度 (Non-Gradient-Based) 方法 ， 也 称 无 梯度 (Gradient-Gree) WII, Eus c SCR 
(Cross-Entropy, CE) 方法 、 协 方差 矩阵 自 适 应 〈Covariance Matrix Adaptation, CMA) (Hansen 
et al., 1996), Jf&ili?: (Hill Climbing), Simplex / Amoeba / Nelder-Mead 算法 (Nelder et al., 1965) 等 。 






































例子 : SOMITE 


除了 对 策略 使 用 基于 梯度 的 优化 , CE 方法 作为 一 种 非 基 于 梯度 的 方法 , 在 强化 学 习 中 也 常用 
于 快速 的 策略 搜索 。 在 CE 方法 中 ,策略 是 迭代 更 新 的 ， 对 参数 化 集 略 re 的 参数 0 的 优化 目标 为 















































0* = arg max S(0) (2.167) 


























其 中 5(9) 是 整体 目标 函数 ,对 于 这 里 的 情况 , 它 可 以 是 折扣 期 望 回 报 (Discounted Expected Return). 

CE 方法 中 的 策略 可 以 被 参数 化 为 一 个 多 变量 线性 独立 高 斯 分 布 (Multi-Variate Linear Inde- 
pendent Gaussian Distribution), 参数 矢量 在 迭代 步 t 时 的 分 布 为 9: ~ N (pr, 07). TER Sn SEAS 
矢量 91,.… On 并 评估 了 它们 的 值 5(91),.… ,S(On) 后 ， 我 们 对 这 些 值 排序 并 选取 最 好 的 [p «n 
个 样本 , 其 中 0 < p < 工 是 选择 比率 (Selection Ratio )。 所 选取 的 样本 的 指标 记 为 Te {1,2,---,n}, 
分 布 的 均值 可 以 用 以 下 式 子 更 新 : 























































































































Mey =: H (2.168) 
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而 方差 的 更 新 为 


ser (Os 一 pt (Oi — p 
c2 1 := Diet| "n en) (2.169) 









































OUT EE T AEE RRRA. PATI. UCR WT FE ASH CE 对 强化 学 习 问 题 的 适用 
性 严重 局 限于 一 个 现象 ， 即 分 布 会 过 快 集中 到 一 个 点 上 。 所 以 ， 它 在 强化 学 习 的 应 用 中 虽然 速度 
快 ， 但 是 也 有 其 他 限制 ， 因 为 它 经 常 收敛 到 次 优 策略 。 一 个 可 以 预防 较 早 收敛 的 标准 技术 是 引入 
噪声 。 常 用 的 方法 包括 在 迭代 过 程 中 对 高 斯 分 布 添 加 一 个 常数 或 一 个 自 适 应 值 到 标准 差 上 ， 比 如 : 
















































































































































































ier (i — ne" (0 -p 
c2, , = Liesl mi t+) Eod (2.170) 




















如 在 Szita et al. (2006) 的 工作 中 ， 有 Z, = max(5 一 15,0). 














2.74 结合 基于 策略 和 基于 价值 的 方法 


根据 以 上 的 初版 策略 梯度 CVanilla Policy Gradient) 方法 ， 一 些 简 单 的 强化 学 习 任 务 可 以 被 
解决 。 然 而 ， 如 果 我 们 选择 使 用 蒙特 卡 罗 或 TD(4) 估计 ， 那 么 产生 的 更 新 经 常会 有 较 大 的 方差 。 
我 们 可 以 使 用 一 个 如 基于 价值 的 优化 中 的 批判 者 (Critic) 来 估计 动作 价值 函数 。 从 而 ， 如 果 我 们 
使 用 参数 化 的 价值 函数 近似 方法 ， 将 会 有 两 套 参 数 : 行动 者 (Actor) 参数 和 批判 者 参数 。 这 实际 
上 形成 了 一 个 非常 重要 的 算法 结构 ， 叫 作 Actor-Critic 〈AC)， 和 典型 的 算法 包括 Q 值 Actor-Critic、 
深度 确定 性 策略 梯度 CDDPG) 等 。 
回想 之 前 小 节 中 介绍 的 策略 梯度 理论 ， 性 能 目标 J 关于 策略 参数 0 的 导数 为 
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T 
VoJ (19) = Ec, >》 Vologro(Ad5))Q" (St, Av) (2.171) 
t=0 
























































其 中 Q7(9;,A,) 是 真实 动作 价值 函数 ， 而 最 简单 的 估计 QT(S, Ap) 的 方式 是 使 用 采样 得 到 的 
累计 奖励 Gt = Dco T RSie A) TE AC 中 ， 我 们 使 用 一 个 批判 者 来 估计 动作 价值 函数 : 
QY (Si, Aj) © Q7 (Sy, Ar). FUE AC 中 策略 的 更 新 规则 为 












































T 
VoJ (T0) = Ec, >》 Vologro(Ad8:)Q" (St, Ar) (2.172) 
t=0 
w 为 价值 函数 拟 合 中 批判 者 的 参数 。 批 判 者 可 以 用 一 个 恰当 的 策略 评估 算法 来 估计 ， 比 如 时 
a24) (Temporal Difference, TD) 学 习 , 像 式 (2.92) 中 对 TDO) 估计 的 Aw = a(Q" (Si, At; w) — 
Fai Nu w))VwQ" (St, At; w) 
尽管 结构 可 以 帮助 减 小 策略 更 新 中 的 方差 ， 它 也 会 引入 偏差 和 潜在 的 不 稳定 (Poten- 
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tial Instability) 因素 ， 因 为 它 将 真实 的 动作 价值 函数 替换 为 一 个 估计 的 ， 而 这 需要 兼容 函数 近似 
(Compatible Function Approximation) 条 件 来 保证 无 偏差 估计 ， 如 文献 (Sutton et al., 2000) 所 提 
出 的 。 

































































兼容 函数 近似 


兼容 函数 近似 条 件 对 SPG 和 DPG 都 适用 。 我 们 将 对 它们 分 别 展示 。 这 里 的 “兼容 ” 指 近似 
动作 价值 函数 Q” (s, a) 与 相应 策略 之 间 是 兼容 的 。 

对 于 SPG: 有 具体 来 说 ,兼容 函数 近似 提出 了 两 个 条 件 来 保证 使 用 近似 动作 价值 函数 Q@r(s,a) 时 
的 无 偏差 估计 (Unbiased Estimation): (1) Q"(s, a) = Vologro(als)Iw 和 (2) 参 数 岂 被 选择 为 能 够 
最 小 化 均 方 误差 (Mean-Squared Error, MSE) MSE(w) = 正 。or axr ((Q" (s, a)— Q7 (s, a))?] B]. E 
直观 地 ,条 件 (1) 是 说 兼容 函数 拟 合 器 对 随机 策略 的 “特征 ?是 线性 的 ,该 “特征 ?为 Velogre(als)， 
而 条 件 (2) 要 求 参 数 w 是 从 这 些 特征 估计 Q7 (s, a) 这 个 线性 回归 CLinear Regression) 问题 的 解 。 
实际 上 ， 条 件 (2) 经 常 被 放宽 以 支持 策略 评估 算法 ， 这 些 算 法 可 以 用 时 间 差 分 学 习 来 更 高 效 地 
估计 价值 函数 。 
BA OA ER Pa FERRE, 那么 AC 整体 算法 等 价 于 没有 使 用 批判 者 做 近似 ， 如 REIN- 
FORCE 算法 中 那样 。 这 可 以 通过 使 得 条 件 (2) 中 的 MSE 为 0 并 计算 梯度 ， 然 后 将 条 件 〈1) R 
























































































































































































































































VwMSE(w) = E[2(Q"(s, a) — Q^" (s, a)) VQ" (s, a)] 
= E[(Q"(s, a) — Q" (s, a) Vo log vo(a|s)) 





























=> E[Q" (s, a) Vo log ze(a|s)] = E[Q" (s, a)Vo log ze(a|s)] (2.173) 
































对 于 DPG: 兼容 函数 近似 中 的 两 个 条 件 应 按照 确定 性 策略 uols) 做 相应 修改 : (1) VoQ" (s, a) 
la=pe(s) = Vouol(s) Tw 而 〈2) w 最 小 化 均 方 误差 ,MSE(9,w) = E[e(s;0,w)Te (s;9,w)]， 其 中 
e(s;0, w) = VaQ" (s, @) |a=po(s) — VaQ" (8,4) la=po(s) > 同样 可 以 证 明 这 些 条 件 能 够 保证 无 偏差 估 
计 ， 通 过 将 拟 合 过 程 所 做 近似 转化 成 一 个 无 批判 者 的 情况 : 



























































Va MSE(0, w) = 0 (2.174) 
=> E[Veno(s)e(s;0,w)] = 0 (2.175) 
> E[Vouo(s)VaQ” (s, 4) |a=p0(s)] = E[Voue(s)VaQ" (s, a)ļa=u0(8)] (2.176) 






























































CIERRE Esp |] 和 离线 策略 Espel] 的 情况 都 适用 。 
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其 他 方法 
如 果 我 们 在 式 (2.171) 中 用 优势 函数 〈Advantage Function) 替换 动作 价值 函数 Q7(s,a) (由 于 
减 掉 基 准 值 不 影响 梯度 ): 
































A™(s,a) = Q"*(s, a) — V™ (s) (2.177) 














那么 我 们 实际 可 以 得 到 一 个 更 先进 的 算法 叫 作 优势 Actor-Critic (Advantage Actor-Critic, A2C) , 
它 可 以 使 用 TD 误差 来 估计 优势 函数 。 这 对 前 面 提出 的 理论 和 推导 不 产生 影响 ， 但 会 改变 梯度 估 
计 的 方差 。 

近来 ， 人 们 提出 了 无 行动 者 (actor-free) 方法 ， 比 如 QT-Opt 算法 (Kalashnikov et al., 2018) 和 
Q2-Opt 算法 (Bodnar et al., 2019)。 这 些 方法 也 结合 了 基于 策略 和 基于 价值 的 优化 ， 有 具体 是 无 梯度 
的 CE 方法 和 DQN。 它 们 使 用 动作 价值 拟 合 (Action Value Approximation) 来 学 习 Q7°(s,a), Tfi 
不 是 使 用 采样 得 到 的 折扣 回报 作为 高 斯 分 布 中 采样 动作 的 估计 ， 这 被 证 明 对 现实 中 机 器 人 学 习 更 
高 效 和 有 用 ， 尤 其 是 当 有 示范 数据 的 时 候 。 
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强化 学 习 算 法 分 类 












































本 章 将 介绍 强化 学 习 算法 的 常见 分 类 方式 和 具体 类 别 。 图 3.1 总 结 了 一 些 经 典 的 强化 学 习 
算法 ， 并 从 多 个 角度 对 强化 学 习 算 法 进行 分 类 ， 其 中 包括 基于 模型 (Model-Based〉 和 无 模型 的 
(Model-Free) 学 习 方法 ， 基 于 价值 (Value-Based) 和 基于 策略 的 (Policy-Based) 学 习 方 法 (或 两 
者 相 结合 的 Actor-Critic 学 习 方法 )， 蒙 特 卡 罗 (Monte Carlo) 和 时 间 差 分 (Temporal-Difference) 
























































































马尔 可 夫 决 策 过 程 








基于 模型 的 
(动态 规划 、 树 搜索 等 ) 


基于 价值 的 
AlphaGo/AlphaZero 


Sarsa | 


梯度 赌博 机 方法 




















习 模 型 


RA 
World Model 
MuZero 


学 





















DDPG 


| cs1 | | Dueling DQN | | Double DQN | + TD3 | | sac | [A2C/A3C 


























图 3.1 强化 学 习 算法 分 类 图 。 加 粗 方 框 代表 不 同 分 类 ， 其 他 方 框 代表 具体 算法 
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3.1 基于 模型 的 方法 和 无 模型 的 方法 








学 习 方 法 ， 在 线 策略 COn-Policy) 和 离线 策略 COff-Policy) 学习 方法 。 大 多 数 强 化 学 习 算 法 都 可 
以 根据 以 上 类 别 进行 划分 ， 希望 在 介绍 具体 的 强化 学 习 算 法 之 前 ， 这 些 分 类 能 帮助 读者 建立 强化 
学 习 知 识 体系 框架 。 其 中 , 第 4、5 和 6 章 分 别 具 体 介绍 了 基于 价值 的 方法 、 基 于 策略 的 方法 ， 以 
























































及 两 者 的 结合 。 


3.1 ”基于 模型 的 方法 和 无 模型 的 万 法 
































我 们 首先 讨论 基于 模型 的 方法 和 无 模型 的 方法 ， 如 图 3.2 所 示 。 什 么 是 “模型 ”? 在 深度 学 习 
中 ， 模 型 是 指 具 有 初始 参数 《〈 预 训练 模型 ) 或 已 习 得 参数 〈 训 练 完毕 的 模型 ) 的 特定 函数 ， 例 如 
全 连接 网 络 、 卷 积 网 络 等 。 而 在 强化 学 习 算 法 中 ,“ 模 型 ” 特 指环 境 ， 即 环境 的 动力 学 模型 。 回 






































想 一 下 ， 在 马尔 可 夫 决 策 过 程 (MDP) 中 ， 有 五 个 关键 元 素 : S, A, P, R, yo SMA RAYS 


























状态 空间 和 动作 空间 ; P 表示 状态 转移 函数 ，p(s'|s,a) 给 出 了 智能 体 在 状态 s 下 执行 动作 a, FF 





ER 











转移 到 状态 s! 的 概率 ; 刃 代 表 奖 励 函 数 ，r(s, a) 给 出 了 智能 体 在 状态 s 执行 动作 a 时 环境 返 











>H 


子 ， 用 来 给 不 同时 刻 的 奖励 赋予 权重 。 











奖励 值 ，7 表示 奖励 的 折扣 




















的 








如 果 所 有 这 些 环境 相关 的 元 


























素 都 是 已 知 的 ， 那 么 模型 就 是 已 知 的 。 此 时 可 以 在 环境 模型 上 进行 计算 ， 而 无 须 再 与 真实 环 ] 
方法 。 在 通常 情况 下 ， 智 能 


行 交 互 ， 例 如 第 2 ERNA RARER] (Planning) 











BLUE 















































体 并 不 知道 环境 的 奖励 函数 RR 和 状态 转移 函数 p(s'|s,a)， 所 以 需要 





























(Trials and Errors)， 观 察 环境 相关 信息 并 利用 反馈 的 奖励 信号 来 不 断 学 习 。 这 个 不 断 学 习 的 过 程 


























既 对 基于 模型 的 方法 适用 ， 也 对 无 模型 的 方法 适用 。 








模型 


通过 和 环境 交互 ， 不 断 试 错 


























MCTS (AlphaGo/ DA Q-Learning 
AlphaZero) 








Policy Gradient 








E World Model | | DQN | 


| TRPO/PPO | 











图 3.2 ”基于 模型 的 方法 和 无 模型 的 方法 



































在 这 个 不 断 试 错 和 学 习 的 过 程 中 , 可 能 有 某 些 环境 元 素 是 未 知 的 ， 如 奖 

















励 函 数 R 和 状态 转移 


函数 了。 此 时 ， 如 果 智 能 体 尝 试 通过 在 环境 中 不 断 执行 动作 获取 样本 (s, a, s, r) RARER RA P 
的 估计 ， 则 p(s'|s, a) AI 的 值 可 以 通过 监督 学 习 进 行 拟 合 。 习 得 奖励 函数 RR 和 状态 转移 函数 P 
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之 后 ， 所 有 的 环境 元 素 都 已 
为 基于 模型 的 方法 。 另 一 种 称 为 无 模型 的 方法 则 不 尝试 对 
Q-learning 算法 对 状态 -动作 对 (s,a) 的 Q 值 进 行 估计 ， 
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, 





























省 利 











用 环境 反馈 更 新 





Gradient) 算法 不 对 
大 化 累积 奖励 。 这 两 种 算法 都 不 关注 环境 模型 ， 
对 环境 建 模 的 方式 称 为 无 模型 的 方法 。 
用 环境 模型 (或 称 为 环境 的 动力 学 模型 
J A 基于 模型 的 方法 可 以 分 为 两 
7 (Learn 
奖励 函数 和 状态 转移 
言 进行 描述 ， 


Mod 





移 函 
不 可 


是 先 通 过 与 环境 交互 学 习 环 境 模 型 ， 然 后 将 模型 应 用 至 
型 例子 包括 World Models 算法 (Ha 
， 智 能 体 首 先 使 ) 


等 
再 使 
然后 
习 得 

















Te 





进行 


智能 体 可 以 直接 利用 3 
2016) ! 


til, MBMF 算法 (Nagabandi et al., 2018) X} 




















知 ， 则 前 文 所 述 的 规划 方法 


Q 值 函数 ， 随 着 Q 值 收 剑 ， 策 略 随 之 逐渐 收敛 达到 最 优 ; 
值 函 数 进行 估计 ， 而 是 将 策略 参数 化 ， 直 接 在 策 



































可 以 直接 用 来 求解 该 
环境 建 模 ， 而 是 直 
通常 


问题 。 这 种 方式 即 称 
接 寻 找 最 优 策略 。 例 
选择 最 大 Q 值 对 应 的 动作 执行 ， 
策略 梯度 (Policy 
略 空间 中 搜索 最 优 策略 ， 最 




































































4)， 例 











通过 
el) 的 方法 ， A 








BESS (Pi) 模型 
` 境 模型 的 : 









































而 是 直接 搜索 全 oe lies 
可 以 看 到 ， 基 于 模型 和 无 模型 的 区 别 在 于 
如 状态 转移 函数 和 奖 











RI Gb 
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FA 
BE 
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励 函 数 。 
类 : 一 类 是 给 定 〈 环 境 ) 模型 (Given the 
the Model) 的 方法 。 对 于 给 定 模型 的 方法 ， 
函数 。 例 如 ， 在 AlphaGo 算法 (Silver et al., 




















计算 机 语 





， 围 棋 规 则 固定 且 容 易 





忆 此 智能 体 可 以 直接 利用 已 知 的 状态 转 




















数 和 奖励 函数 进行 策 





各 的 评估 和 提升 。 而 对 于 另 一 














类 学 习 模 型 的 方法 ， 由 于 环境 的 复杂 性 或 























知性 ， 我 们 很 难 描述 整个 动力 系统 的 规 得 

















E. JER 





对 智能 体 无 法 直接 获取 模型 ， 可 行 的 蔡 代 方式 


























第 二 类 的 } 


例如 在 World Models 算法 
用 变 分 自 编码 器 (Variational Autoencoder 
























































策略 评估 和 提升 的 过 程 中 。 

















et al., 2018). I2A 算法 (Racaniére et al., 2017) 

















随机 策略 与 环境 交互 收集 数据 (St, At, S11), 
，VAE) (Baldi, 2012) 将 状态 








a 3 ARAE Tr] i - 















































利用 数据 (Ze, Ar, Zea) 学 习 潜 向 量 z 的 
的 预测 模型 提升 策略 能 





lim] 




















预测 模型 。 有 了 预测 模型 





4 之 后 ， 智 能 体 便 可 以 通 


























基于 模型 的 方法 的 主要 优点 是 ， 通 过 
更 好 的 规划 。 






































寸 环境 模型 可 以 预测 未 来 的 状态 和 奖励 ， 从 而 
些 典型 的 方法 包括 朴素 规划 方法 、 专 家 迭代 (Sutton et al., 2018) 方法 等 








帮助 智能 体 
. 例 



























































x) 
环境 
在 实 


模型 











B 
境 模 
其 自 
耗 、 








2654 











了 专家 人 迭代 的 算法 。 基 于 模型 的 方法 的 缺点 在 于 


了 朴素 规划 的 算法 ，AlphaGo 算法 (Silver et al., 2016) 





， 存 在 或 构建 模型 的 假设 过 强 。 现 实 问题 中 


























的 动力 学 模型 可 能 和 
际 应 用 中 ， 学 习 得 
的 策略 的 评 


REA, 
到 的 模型 往往 是 不 准 


















































是 升 其 策略 性 能 。 
型 ， 也 就 不 存在 环境 拟 合 不 准确 


























[至 无 法 显 式 地 表示 出 来 ， 导 致 模型 
确 的 ， 这 给 智能 体 训练 引入 了 估计 误差 ， 
三 和 提升 往往 会 造成 策略 在 真实 环境 中 失效 。 

相 较 之 下 ， 无 模型 的 方法 不 需要 构建 环境 模型 。 
EAN 
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与 基于 模型 的 方法 相 比 ， 无 模型 的 方法 
的 问题 ， 相 对 更 易于 实 ; 








+ 通常 无 法 获 


















































d uc c 
由 于 不 关心 环境 模型 ， 无 须 学 
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身 的 问题 。 最 常见 的 问题 是 








Ih 题 是 ， 有 时 在 


真实 环境 中 进行 探索 的 代价 是 极 














高 的 ， 如 巨大 的 时 间 消 














不 可 逆 的 设备 损耗 及 安全 风险 ， 等 所 
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下 ， 让 智能 体 用 无 模型 的 方法 在 现 久 





世界 : 




















第 4、5 和 6 章 中 介 


。 比 如 在 自动 驾 
探索 ， 因 为 任何 交通 




















驶 中 ， 我 们 不 能 在 没有 任何 防护 措施 的 




















事故 的 代价 都 将 是 难以 承 


绍 的 算法 都 是 无 模型 算法 ， 包 括 深 度 Q 网 络 (Deep Q-Network, DQN) 


32 基于 价值 的 方法 和 基于 策略 的 方法 








算法 (Mnih et al., 2015). 


PRE (Deep Deterministic Policy Gradient, DDPG) 算法 (Lillicrap et al., 2015) 等 。 
采样 效率 (Sample Efficiency) 低 的 缺点 很 难 克 服 ， 天 然 具 








3.2 ”基于 价值 的 方法 和 基于 策 





法 仍然 是 现在 的 主流 方法 ， 但 由 于 其 
有 高 采样 效率 的 基于 模型 的 方法 发 挥 着 越 来 越 重 要 的 作用 《〈 详 见 第 7 章 )。 例 如 ， 
的 AlphaGo (Silver et al., 2016)、AlphaZero (Silver et al., 2017, 2018) 算法 ， 


法 (Schrittwieser et al., 2019) 都 属 了 
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模型 的 方法 。 


RRR AYA 


策略 梯度 (Policy Gradient) 方法 (Sutton et al., 2000). IKEM 


以 及 最 








定性 策略 
虽然 无 模型 方 























介绍 








第 15 章 中 4 
新 的 MuZero 算 











回忆 第 2 章 ， 深 度 强化 学 习 中 昌 
两 者 的 结合 产生 了 Actor-Critic 类 



























































的 策略 优化 主要 有 两 类 : 3E] 
算法 和 QT-Opt (Kalashnikov et al., 2018) 等 其 



































价值 的 方法 和 基于 策略 的 方法 。 
也 算法 ， 它 们 利用 
常 
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s,a)， 最 优 策略 通 








FX SIME 





























导致 )。 







































































价值 函数 的 估计 来 帮助 更 新 策略 。 其 分 类 关系 如 图 3.3 所 示 。 基 于 价值 的 方法 ; 
价值 函数 QT (s.a) 的 优化 。 优 化 后 的 最 优 值 函数 表示 为 Q (s, a) = max, Q7( 
过 选取 最 大 值 函数 对 应 的 动作 得 到 e argmax, Q7 (s” 由 函数 近似 误差 
时 间 差 分 方法 : 
: 策略 迭代 
价值 Se 价值 迭代 
SRA 广义 策略 迁 代 
策略 搜索 方法 : 
E La Policy Gradient 
RATA Trust Region 
Evolution 
Q 策略 
图 3.3 ”基于 价值 的 方法 和 基于 策略 的 方法 。 图 片 参考 文献 (Li, 2017) 


Nyy 


2016) 改进 了 网 





























常见 的 基 
DQN) (Mnih et 











al., 2015) KB 





法 动作 空间 问题 
































， 且 最 终 的 策 


变 体 : (1) 优先 经 验 回 
et al., 2015) 基于 TD 误差 对 数据 进行 加 权 采 样 ， 以 提 
络 结构 ， 将 动作 价值 
; (3) Double DQN (Van Hasselt et al., 2016) 使 


函数 Q 分 解 为 状态 值 




















基于 价值 的 方法 的 优点 在 于 采样 效率 相对 较 高 ， 值 函数 估计 方差 小 ， 
JE C BL AS Be AE EXE A 
式 。 此 外 ， 深 度 Q 网 络 等 算法 中 的 e- 贪 心 策略 Cegreedy) 和 
于 价值 的 算法 包括 Q-learning (Watkins et al., 1992)、 深 度 Q 网 络 (Deep Q-Network, 
放 CPrioritized Experience Replay, PER) (Schaul 
(2) Dueling DQN (Wang et al., 





















































高 学 习 效率 ， 
函数 了 和 优势 函数 A 以 提 
用 不 同 的 网 络 参数 对 动作 进行 选择 和 评估 ， 以 


不 易 





陷入 局 部 最 优 : S 


各 通常 为 确定 性 策略 而 不 是 概率 分 布 的 形 
max 算 子 容易 导 





致 过 估计 的 问题 。 


高 函数 近似 
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解决 过 估计 的 问题 ; 


%; (5) Noisy DQN (Fortunato et al., 2017) 给 
Distributed DQN (Bellemare et al., 2017) 将 状态 -动作 值 
dE T ENG A 7 A ELBOS] RETA 
价值 的 方法 相 比 ， 基 于 策略 的 方法 具有 
常见 的 基于 策略 的 算法 包括 策略 梯度 算法 (Policy Gradient, PG) (Sutton et al., 














it 














维 的 动作 空间 。 














(4) Retrace (Munos et al., 2016) 
网 络 参数 
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各 参数 


AR 











化 简单 、 





5i 
添加 
ii 












































收敛 速度 快 的 优点 ， 
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分 布 


E 了 @ 值 的 计算 方法 ， 减 少 了 估计 的 方 
虹 声 ， 增 加 了 智能 体 的 探索 能 力 ; (6) 
化 为 对 状态 -动作 值 


的 估计 。 











化， 通过 对 策略 途 代 更 新 ， 实 现 累 积 奖 励 最 大 化 。 与 基于 














适用 了 





连续 或 高 











2000)、 信 赖 域 策 略 优化 算法 (Trust Region Policy Optimization, TRPO) (Schulman et al., 2015). 3t 
端 策略 优化 算法 (Proximal Policy Optimization, PPO) (Heess et al., 2017; Schulman et al., 2017) 等 ， 





信赖 域 策 略 优 化 算法 和 近 端 策 
wai (Collapse), (EAE) 

除了 基于 价值 的 方法 和 
法 。Actor-Critic 方法 结合 了 两 利 


H HL 
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IE 























IU EB D 
V 来 提高 采样 效率 (Critic )， 并 利用 
的 动作 空间 。ActorCritic 方法 可 以 看 作 是 基 








略 优 化 算法 在 策略 梯度 算法 的 基础 上 限 
[稳定 。 
于 策略 的 方法 ,更 流行 的 是 两 

















基于 
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作 是 基 











2018) 和 一 系列 改进 : CIO 异步 
法 扩展 到 异步 
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KE 





























于 策略 的 方法 在 减少 相 
了 上 述 两 种 方法 的 优点 ， 但 同时 








tb 








# 本 方差 和 提升 采 相 





bias RIA 








于 价 








行 学 习 ， 打 乱 数 据 之 间 的 相关 性 ， 提 高 了 档 
性 策略 梯度 算法 (Deep Deterministic Policy Gradient, DDPG) (Lillicrap et al., 2015) 沿 


效率 方面 的 改进 。 虽 
华 承 了 相应 的 缺点 。 比 如 ，Critic 存在 过 估计 的 问题 ， 
在 探索 不 足 的 问题 等 。 一 些 常 见 的 Actor-Critic 类 的 算法 包括 Actor-Critic (AC) 算法 (Sutton et al., 
优势 Actor-Critic 算法 (A3C) (Mnih et al., 2016) 将 Actor-Critic 方 
本 收集 速度 和 训练 效率 ; 〈2) 深度 确 


















































出 了 更 新 步 长 ， 以 防止 策略 


者 的 结合 ,这 衍生 出 了 Actor-Critic 方 
基于 价值 的 方法 学 习 Q 值 函数 或 状态 价值 函数 
策略 的 方法 学 习 策 略 函 数 (Actor)， 从 而 适用 于 连续 或 
值 的 方法 在 连续 动作 空间 中 的 扩展 ， 也 可 以 
SR Actor-Critic 方法 吸收 











Actor 存 
































了 深度 





Q 网 络 算法 的 目标 网 络 ， 同 时 Actor 是 一 个 确定 性 策略 ; (3) ZEAE WEIR DDPG 算法 (Twin Delayed 
Deep Deterministic Policy Gradient, TD3) (Fujimoto et al., 2018) 引入 了 截断 的 (Clipped) Double 


Q-Learning 解决 过 估计 问题 ， 同 时 延迟 Actor 更 新 频率 以 优先 提高 Critic 拟 合 准 确 度 ; (4) 柔性 




















Actor-Critic 算法 (Soft Actor-Critic; SAC) (Haarnoja et al., 2018) Æ Q (Hea Beat FS] A 1E D 





化 ， 以 提高 智能 体 探 索 能 力 。 


3.3 


蒙特 卡 罗 方 法 和 时 间 差 分 方法 














蒙特 卡 罗 (Monte Carlo, MC) 方法 和 时 间 差 分 〈Temporal Difference, TD) 方法 的 区 别 已 经 


在 第 2 章 中 讨论 过 , 一 些 算法 如 图 
时 间 差 分 方法 是 动态 规划 (Dynamic Programming, DP) 方法 和 蒙特 卡 罗 方 法 的 一 种 : 
先 , 时 间 差 分 方法 和 动态 规划 方法 都 使 用 自 举 法 (Bootstrapping) 进行 


























3.4 所 示 o KA 








BART 

















次 总 结 它们 的 特点 以 








A ul 


F 本 章 的 完整 性 。 

















和 蒙特 卡 罗 方 法 都 不 需要 获取 环境 模型 。 这 两 种 方法 最 大 的 不 同 之 处 在 于 如 何 进行 参数 更 新 ， 蒙 
CAKE) 后 才能 更 新 ， 而 时 间 差 分 方法 在 每 一 步 动 作 执行 都 
差异 将 使 时 间 差 分 方法 方法 


特 卡 罗 方 法 必须 等 到 一 条 轨迹 4 








可 以 通过 自 举 法 (估计 值 ) 及 时 更 新 。 这 利 
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Hit, EX, 时间 差分 方法 











间 形 式 。 首 



























































有 更 大 的 偏差 ， 而 使 蒙 


3.4 在 线 策略 方法 和 离线 策略 方法 














特 卡 罗 方 法 方法 具有 更 大 的 方差 。 









蒙特 卡 洛 方法 


Policy Gradient 
TRPO/PPO 


图 34 ”蒙特 卡 罗 方 法 和 时 间 差 分 方法 






时 间 差 分 方法 








Actor-Critic 
























3.4 ”在 线 策 略 方法 和 离线 策略 方法 


在 线 策略 (On-Policy) 方法 和 离线 策略 (Off-Policy) 方法 依据 策略 学 习 的 方式 对 强化 学 习 算 
法 进行 划分 (图 3.5)。 在 线 策略 方法 试图 评估 并 提升 和 环境 交互 生成 数据 的 策略 ， 而 离线 策略 方 
法 评估 和 提升 的 策略 与 生成 数据 的 策略 是 不 同 的 。 这 表明 在 线 策略 方法 要 求 智 能 体 与 环境 交互 的 
策略 和 要 提升 的 策略 必须 是 相同 的 。 而 离线 策略 方法 不 需要 遵循 这 个 约束 ， 它 可 以 利用 其 他 智能 
体 与 环境 交互 得 到 的 数据 来 提升 自己 的 策略 。 常 见 的 在 线 策略 方法 是 Sarsa， 它 根据 当前 策略 选 
择 一 个 动作 并 执行 ， 然 后 使 用 环境 反馈 的 数据 更 新 当前 策略 。 因 此 ，Sarsa 与 环境 交互 的 策略 和 
更 新 的 策略 是 同一 个 策略 。 它 的 Q 函数 更 新 公式 如 下 : 






















































































































































































Q(St, At) — Q(Si, At) + o[F + YQ(St41, Aca) — Q(S A1]. (3.1) 


Y Y 


(Sarsa | | Policy Gradient [ Actor-Critic | [ppc 


TRPO/PPO A2C/A3C 


图 3.5 ”在线 策略 方法 和 离线 策略 方法 































115 


第 3 章 强化 学 习 算 法 分 类 























Q-learning 是 一 种 典型 的 离线 策略 方法 。 它 在 选择 动作 时 采用 max 操作 和 e- 贪 心 策略 ， 使 得 
与 环境 交互 的 策略 和 更 新 的 策略 不 是 同一 个 策略 。 它 的 Q 函数 更 新 公式 如 下 : 


























Q(S:, At) — Q(S:, At) + o| Re + ymax Q(St41, Aca) — Q(Si A]. (3.2) 
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I Q 网 络 


Si 





























本 章 将 介绍 的 DQN 算法 全 称 为 深度 Q 网 络 算法 ， 是 深度 强化 学 习 算 法 中 最 重要 的 算法 之 
一 。 我 们 将 从 基于 时 间 差 分 学 习 的 Q-Learning 算法 入 手 ， 介 绍 DQN 算法 及 其 变 体 。 在 本 章 的 最 
后 ， 我 们 提供 了 代码 示例 ， 并 对 DQN 及 其 变 体 进行 实验 比较 。 

强化 学 习 最 重要 的 突破 之 一 是 Q-Learning 算法 。 它 是 一 种 离线 策略 (Off-Policy) 的 时 间 差 分 
(Temporal Difference) 算法 ， 此 前 在 第 2 章 中 有 介绍 。 在 使 用 表格 (Tabular) 的 情况 下 或 使 用 线 
性 函数 逼近 Q 函数 时 ，Q-Learning 已 被 证 明 可 以 收银 于 最 优 解 。 然 而 ， 当 使 用 非 线 性 函数 逼近 器 
(如 神经 网 络 ) 来 表示 Q 函数 时 ，Q-Learning 并 不 稳定 ， 甚 至 是 发 散 的 (Tsitsiklis et al., 1996)。 随 
着 深度 神经 网 络 技 术 的 不 断 发 展 ， 深 度 Q 网 络 (Deep Q-Networks, DQN) 算法 (Mnih et al., 2015) 
解决 了 这 一 问题 ， 并 点 燃 了 深度 强化 学 习 的 研究 。 在 本 章 中 ， 我 们 将 先 回顾 Q-Learning 的 背景 。 
之 后 介绍 DON 算法 及 其 变 体 ， 并 给 出 详细 的 理论 和 解释 。 最 后 ， 在 4.8 T. 我 们 将 通过 代码 展示 
算法 在 雅 达 利 游戏 上 的 实现 细节 与 实战 表现 ， 为 读者 提供 快速 上 手 的 实战 学 习 过 程 。 每 种 算法 的 
完整 代码 可 以 在 随 书 提供 的 代码 仓库 中 找到 1。 

无 模型 (Model-Free) 方法 为 解决 基于 MDP 的 决策 问题 提供 了 一 种 通用 的 方法 。 其 中 “ 模 
型 ”是 指 显 式 地 对 MDP 相关 的 转移 概率 分 布 和 回报 函数 建 模 ， 而 时 间 差 分 (Temporal Difference, 
TD) 学 习 就 是 一 类 无 模型 方法 。 在 2.4 节 中 ， 我 们 讨论 过 ， 当 拥有 一 个 完美 的 MDP 模型 时 ， 通 
过 递归 子 问 题 的 最 优 解 ， 就 可 以 得 到 动态 规划 的 最 优 方案 。TD 学 习 也 遵循 了 这 样 一 种 思想 ， 即 
使 对 子 问题 的 估计 并 非 一 直 是 最 优 的 ， 我 们 也 可 以 通过 自 举 (Bootstrapping) 来 估计 子 问 题 的 值 。 



































































































































































































































































































































































































































! 代 码 链 接见 读者 服务 
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子 问题 通过 MDP 中 的 状态 表示 。 在 策略 r F, REA s A value (E CV 值 ) vs (s) 被 定义 
为 从 状态 s 开始 ， 以 策略 m 进行 动作 的 预期 回报 : 









































Un(s) = Er [Ri + Yr (St41) [St = 5], (4.1) 

















此 处 的 y e [0,1] 是 衰减 率 。TD 学 习 用 自 举 法 分 解 上 述 估计 。 给 定价 值 函数 了 : SR, 
TD(0) 是 一 个 最 简单 的 版 本 ， 它 只 应 用 一 步 自 举 ， 如 下 所 示 : 























V(St) — V (Si) + o(F + 4V (St41) — V(S:)] (4.2) 











此 处 的 Ry + YV (Siqi) 和 Ri 十 YV (St41) 一 V(Si) 分 别 被 称 为 TD 目标 和 TD 误差 。 

策略 的 评估 值 提 供 了 一 种 对 策略 的 动作 质量 (Quality) 进行 评估 的 方法 。 为 了 进一步 了 解 如 
何 选择 某 一 特定 状态 下 的 动作 ， 我 们 将 通过 Q 值 来 评估 状态 -动作 组 合 的 效果 。Q 值 可 以 这 样 被 
估计 : 




































































dn(S, a) = E [Re F1 十 Un (S441) |S¢ = 8, At =a (4.3) 


























有 了 Q 值 对 策略 进行 评估 之 后 ， 我 们 只 需要 找到 一 种 能 提升 Q 值 的 方法 就 能 提升 策略 的 
效果 。 最 简单 的 提升 效果 的 方法 就 是 通过 贪心 的 方法 执行 动作 : m (s) = arg maxa, gr(s,a')。 由 
qr'(S,a) = maxa’ qz(5,0') > q«(s, a) 我 们 可 以 知道 ， 贪 心 的 策略 一 定 不 会 得 到 一 个 更 差 的 解法 。 
考虑 到 探索 的 必要 性 ， 我 们 可 以 用 一 种 蔡 代 方案 来 提升 策略 的 效果 。 在 该 方案 中 ， 多 数 情况 下 我 
们 仍然 选择 贪心 动作 ， 但 是 同时 会 以 一 个 小 概率 es， 从 所 有 动作 中 以 相同 概率 随机 选择 一 个 动作 。 
该 方法 被 称 为 e- 贪 心 。 我 们 可 以 这 样 计算 -贪心 策略 中 7 HIQ IE: 










































































































































































qals, T (s)) = (1 — €) max q«(s,a) 十 al Dale, a). (4.4) 











HIERE, TEA 在 a € 4 上 的 和 为 1。 由 于 最 大 值 不 小 于 加 权 平 均值 ， 所 以 可 以 
































A 
zn 
us 
—, 











qals, T (s)) = (1 — e) max qz (s, a) 5 i EA | a NE qx (s, a) 


J = 
acA £ acA 


WV 





(1-932 299 Ml, (5,0) + asa) a(n(), — 45 
acA Ee Al gen 
由 此 得 知 ， 通 过 e- 贪 心 策略 m! 进行 动作 产生 的 Q 值 并 不 会 小 于 原始 的 策略 r。 也 就 是 说 ， 
ce- 贪心 方法 能 确保 策略 的 优化 。 接 下 来 ， 我 们 将 在 下 一 节 中 讨论 如 何 使 用 Q 函数 进行 策略 优化 。 
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4.1 Sarsa fe Q-Learning 































































































41 Sarsa fI Q-Learning 

更 新 Q 函数 的 方式 也 和 TDO 中 更 新 V 函数 的 方式 相似 ， 直 接 在 每 次 发 生 非 终结 Non- 

Terminal) 状态 下 的 状态 转移 之 后 ， 用 此 时 的 状态 S: 对 Q 函数 进行 更 新 即 可 。 
Q(St, Ai) — Q(St, At) + o Re + YQ(St41, Aca) — Q(St, Ad] (4.6) 
此 处 的 As 和 Arpi 动作 都 是 通过 基于 Q [ET] e- 贪 心 方法 来 选择 的 。 如 果 S141 是 一 个 终结 状 
态 (Terminal State), M Q(S, ,41) 将 被 设置 为 0。 我 们 能 不 断 地 估计 行为 策略 站 产生 的 @， 同 
时 让 7 趋 近 于 基于 Q 的 贪心 策略 。 此 算法 就 是 Sarsa 算法 。 值 得 注意 的 是 ， 策 略 立 在 Sarsa 中 有 
两 个 职责 : 产生 经 验 和 提升 策略 。 通 常 来 说 ， 用 来 产生 行为 的 策略 被 称 为 行为 策略 ， 而 用 来 评估 
和 提升 的 策略 被 称 为 目标 策略 。 当 算法 中 的 行为 策略 和 目标 策略 是 同一 个 策略 时 《例如 Sarsa), 





该 算法 就 是 一 种 在 线 策 略 COn-Policy) 方法 。 
在 线 策略 方法 本 质 上 是 一 种 试 错 的 过 程 
离线 策略 方法 考虑 一 种 反思 的 策 


升 。 




















KEK, 






























































P ARRET. Hume Ask, BE (One-Step) Q-Learning 遵循 如 下 更 新 规则 : 


此 处 的 A, 是 通过 基于 Q 的 e- 贪 心 方法 采样 得 到 的 。 注意 
与 Sarsa 不 同 。 也 就 是 说 ，Q-Learning 中 的 行为 策略 也 是 HL, 


策略 。 单 步 Q-Learning 只 考虑 当前 的 状态 转移 ， 而 我 们 可 以 选择 多 步 (Multi-Steps) Q-Learning 


方法 ， 


意 , 2H Q-Learning ! 
考 公式 (4.3)) 的 近似 。 ee te 3 


Q(St, At) — Q(St, At) + o|F + ymax Q(St41, A1) — 
t+1 















































呈 ， 当 前 策略 产生 的 经 验 仅 会 被 直接 用 于 进行 策略 提 
使 得 反复 使 用 过 去 的 经 验 成 为 了 可 能 。Q-Learning 就 是 
Q(St, A)] (4.7) 

上 总 Atti 是 通过 贪心 方 方式 选择 的 ， 此 处 

但 是 目标 策略 是 贪心 (Greedy) 






































在 近似 情况 下 ， 通 过 使 用 多 步 奖励 (Multi-Steps Rewards) X3 
需要 考虑 后 续 奖 励 的 不 匹配 问题 

















继续 对 多 步 Q-Learning 展 





， 以 保持 Q 函数 对 目标 策略 预期 





得 更 加 精准 的 Q 值 。 要 注 
Id C 








开 讨 论 。 





































































































































































































4.2 ”为 什么 使 用 深度 学 习 : 价值 函数 逼近 
在 使 用 表格 方式 表示 Q 函数 的 时 候 ，Q AT RANA — T AC ER. MEE Uu. 每 个 
离散 的 状态 和 动作 都 有 一 个 单独 的 条 目 。 然 而 该 方法 在 处 理 具 有 大 规模 数据 空间 〈 如 原始 像素 输 
AO 的 任务 时 将 十 分 低 效 ， 更 不 用 说 具有 连续 数据 的 控制 任务 了 。 幸 运 的 是 ， 通 过 使 用 函数 逼近 
从 不 同 输入 进行 泛 化 的 技术 已 经 得 到 了 广泛 的 研究 , 我 们 可 以 将 其 应 用 于 基于 价值 (Value-based ) 
的 强化 学 习 。 
接 下 来 ， 我 们 考虑 Q-Learning 中 使 用 参数 0 进行 函数 拟 合 。 函 数 拟 合 器 可 以 是 线性 模型 、 决 
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策 树 或 者 神经 网 络 。 之 后 ， 我 们 通过 (4.7) 式 子 进行 更 新 ， 它 可 以 被 重 写 为 


0, < arg min £(Q 





此 处 的 C 代表 损失 函数 ， 如 均 方 误差 (Mean Squared Error)。 对 于 上 述 的 优化 问题 ， 
量 采 样 构造 出 拟 合 Q 迭代 (Fitted Q Iteration) (Riedmiller, 2005)， 其 过 程 如 算法 4.15 所 示 ， 其 中 
St 是 S; 的 后 继 状态 。 该 算法 的 一 个 在 线 随机 的 变 利 


























Q Iteration) 算法 。 
算法 445 WA Q 迭代 








(Si, At; 0), Re + yQ(St41, An; 9)) 


























(4.8) 


可 以 通过 批 





就 是 如 算法 4.16 所 示 的 在 线 Q 迭代 (Online 





for 迭代 数 i= 1,T do 
收集 份 采样 (C95 Ai, Ri, 9)) 24 
fort= 1,K do 





WE Y; Ri 十 ymaxa Q(S,,a; 0) 
设置 0 — arg ming Dy AO Ge Aj; 6’) — Y;)? 


end for 
end for 





算法 4.16 在 线 Q XXX 





for JALAL = 1, T do 





选择 动作 a 与 环境 交互 ， 并 得 到 观察 数据 (s, a,r, 5’) 














设置 y |r +ymaxy Q(s’,a’;0) 
































end for 


WHO — 0 — a(Q(s,a 0) — y) So 






































值得 注意 的 是 ， 拟 合 Q 迭代 和 在 线 Q ACL AR EWE RES. BL, ETAT DL ec 
去 的 经 验 。 我 们 将 在 下 一 节 对 此 进行 深入 讨论 。 











在 2.4.2 节 中 ， 我 们 通过 贝尔 曼 最 14 














EE 





LIBI SEE 7* 介绍 了 值 迭 代 的 收敛 性 。 我 


























的 运算 符 B, B 函数 近似 为 BV = arg miny’en LE(V', V), 其 中 Q 是 所 有 可 近似 的 1 


Hit 





pan 
um 





门 定 义 一 个 新 
函数 的 集合 。 
















































































稳定 性 。 
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迭代 是 不 稳定 的 ， 甚 至 可 能 发 散 (Tsitsiklis et al., 1997)。 我 们 将 在 下 一 节 讨论 深度 和 





得 注意 的 是 ， 中 的 arg min 可 以 看 作 是 T*Y 到 2 的 映射 。 所 以 函数 近似 的 回 
示 为 BT*. Wi T* 在 无 穷 范式 Coo-norm) FAA, BW L2 范式 下 的 MSE 损 
gj BT* 不 以 任何 形式 收 你 。 因 此， 当 用 神经 网 络 等 非 线 性 函数 逼近 器 来 表示 数值 











洲 算 子 可 以 表 
A PESE. M 
函数 时 ， 数 值 























经 网 络 训练 的 





43 DQN 





43 DEQN 











在 上 一 节 : 





的 经 验 (Si, At, Re, Sta 

















时 


新 。 回 放 缓存 相 较 于 拟 合 Q 迭代 有 几 个 优势 。 








， 我 们 介绍 了 近似 学 习 状 态 -动作 值 函数 
原始 像素 输入 的 复杂 问题 中 实现 端 到 端 六 
习 来 解决 不 稳定 性 问题 ， 并 在 雅 达 利 游戏 上 取得 了 显著 进 

第 一 个 关键 技术 被 称 为 回放 缓存 (Replay Buffer)。 这 是 一 种 被 称 为 经 验 习 
til] (Lin, 1993; McClelland et al., 1995; O'Neill et al., 2010). ZE&EA I 
a) 存 入 回放 缓存 中 ， 然 后 从 该 缓存 中 均匀 采样 小 批量 样本 
































E. 


的 方法 及 其 收敛 不 稳定 性 。 为 了 在 使 用 
UR. DON 通过 两 个 关键 技术 结合 Q-Learning 和 深度 学 





























E 演 的 生物 学 启发 机 














EE t H, DON 先 将 智能 体 获 得 


















































Ae, 








它 可 以 重用 























函数 ， 这 样 可 以 提高 数据 使 用 效率 。 





中 的 样本 将 会 是 连续 采集 的 ， 即 样本 高 度 相关 。 这 样 会 增加 更 新 




















于 训练 的 样本 只 
Ti 





























第 二 个 关键 技 





Learning 的 











来 Ar 
VAR. ST 









































Learning 
在 动 
Q(St41, @) 
训练 目标 ， 就 


— 



































的 片段 平均 分 。 





aA 


游戏 名 称 


和 (S, A,) 上 的 更 新 使 得 
由 增加 ， 从 而 使 得 由 Q 网 络 产生 上 
能 避免 过 估计 的 问题 。 
这 两 项 关键 技术 在 5 个 雅 达 利 游戏 的 效果 提升 效果 妇 
超 参 数 搜索 功能 的 训练 。 每 250000 次 训练 ， 会 对 各 个 智能 



























































次 ， 如 果 像 拟 合 Q 迭代 那样 没有 回放 缓存 ， 























目标 ， 进 一 步 提 高 神经 网 络 的 稳定 性 。 此 外 ， 
更 新 ) 或 者 指数 衰减 平均 〈 软 更 新 ) 的 方式 与 主 Q 网 络 同步 。 
标 ， 使 目标 值 的 产生 不 受 最 新 参数 的 影响 ， 从 而 大 大 减少 发 散 和 震荡 
Q 值 增加 ， 此 时 S, 和 Si. 的 相似 忆 





的 训练 目标 值 被 过 估计 。1 











WET (FIFO 2. 
FE 立 的 网 络 ， 

















DER 





所 需 




















目标 网 络 每 C 步 将 通过 
目标 网 络 通 过 使 用 


的 方差 。 最 后 ， 经 验 回放 防止 用 
个 策略 ， 这 样 能 平滑 学 习 过 程 并 减少 参数 的 震荡 或 发 散 。 在 实践 中 ， 为 
E 往 只 将 最 后 N 个 经 验 存 入 回 
术 是 目标 网 络 。 它 作为 一 个 痢 


的 Q 





F Q-Learning 


每 个 时 间 步 的 经 验 来 学 习 Q 











那么 一 个 批 次 


























网 络 来 生成 Q- 














直接 复制 〈 硬 











日 参数 生成 Q- 














的 情况 。 例 如 ， 
E 可 能 会 导致 所 有 动作 a 的 


















































是 如 


















































Fan oe 


[X 4.1 所 示 。 智 能 
本 进行 135000 iti 














使 用 回放 缓存 和 
目标 Q 网 络 





使 用 回放 缓存 ， 
且 不 使 用 目标 Q 
网 络 


分 别 使 用 回放 缓存 和 目标 Q 网 络 的 效果 。 数 据 来 自 文献 (Mni 


不 使 用 回放 缓 
存 ， 使 用 目标 Q 
网 络 


果 











fi 
be 


1H 





标 网 络 产生 


体 进行 了 1e7 次 配备 














评估 ， 


h etal, 








并 且 记 录 最 高 
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不 使 用 回放 缓存 
和 目标 Q 网 络 





Breakout 


316.8 


240.7 


10.2 


3.2 





Enduro 


1006.3 


831.4 


141.9 


29.1 





River Raid 


7446.6 


4102.8 


2867.7 


1453. 


0 





Seaquest 


2894.4 


822.6 


1003.0 


275.8 





Space Invaders 





1088.9 


























826.3 





373.2 


于 将 任意 长 度 的 历史 数据 作为 神经 网 络 的 输入 较为 复杂 ，DQN 转 而 处 理 








302.0 


r1 

















函数 $ 生成 的 
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固定 长 度 表示 的 历史 数据 。 准 确 来 说 ， 少 集合 了 当前 帧 和 前 三 帧 的 数据 ， 这 对 于 跟踪 时 间 相 关 信 
县 〈 如 对 象 的 移动 ) 非常 有 用 。 完 整 的 算法 展示 在 算法 4.17 中 。 其 中 原始 帧 被 调整 为 84 x 84 的 
灰 度 图 像 。 函 数 $ MESE Y ok 4 帧 的 数据 作为 神经 网 络 的 输入 。 此 外 ， 神 经 网 络 的 结构 由 三 个 
卷 积 层 和 两 个 完全 连接 的 层 组 成 ， 每 个 有 效 动作 只 有 一 个 输出 。 我 们 将 在 4.8 节 讨 论 更 多 的 训练 
细节 。 
算法 4.17 DQN 

超 参 数 : 回放 缓存 容量 W， 奖 励 折扣 因子 Y， 用 于 目标 状态 -动作 值 函 数 更 新 的 延迟 步 长 C, 

e-greedy 中 的 €o 

输入 : 空 回 放 缓 存 D， 初 始 化 状态 -动作 值 函 数 Q 的 参数 0。 

使 用 参数 0 二 0 初始 化 目标 状态 -动作 值 函数 Qo 

for 片段 = 0,1,2,--- do 

初始 化 环境 并 获取 观测 数据 Oo 。 









































初始 化 序列 So = (Oo) 并 对 序列 进行 预 处 理 oo = %(5o)。 


for t=0,1,2,--- do 





























EA, 并 获得 











执行 动 
如 果 本 




















通过 概率 e 选择 一 个 随机 动作 Ay, 














存储 状态 转移 数据 (加 Ar, Re, Dt, $141) 到 DD 中。 














MD! 








若 D; =0, WHY; 

















FE (Y; — Qla, Ai; 0)? 
每 C 步 对 

















P 上 对 6 执行 梯度 下 
目标 网 络 @ 进行 同步 。 


Ri +y maxu Q(0 a';0), 
降 步 又。 














如 果 片 段 结束 ， 则 跳出 循环 。 


end for 
end for 


biti = P(St41) 6 


随机 采样 小 批量 状态 转移 数据 (Hi, Ai, Ri, Di, $j) 6 
, fW WHY; = Rio 


否则 选择 动作 A, = arg max, Q(6(5;),a; 0). 
观测 数据 On 和 奖励 数据 Reo 
局 结束 ， 则 设置 D, —1, 否则 D, = 0. 

设置 St+1 = (9; At, Oral 并 进行 预 处 理 





4.4 Double DON 


Double DQN 是 对 DON 在 减少 过 拟 合 方 























论 算法 之 前 ， 我 们 先 在 经 


















































































































































R; + y maxa Q(Si41,4) 包含 一 个 最 大 化 算 子 max HRE. T QX 

或 者 其 他 原因 ， 可 能 带 有 噪声 。 需 注意 的 是 ， 最 大 噪声 的 期 望 值 # 

E[max(ei, ,en)] > (max(E[a],--- ,E[e,]). Alt, F-7 

et al., 1993) 对 此 提供 了 进一步 的 理论 分 析 和 实验 结 
通过 增加 对 网 络 参数 9 的 关注 ， 标 准 DON 的 学 习 目 标 可 以 被 



































下 的 改进 (Van Hasselt et al., 2016)。 在 进一步 讨 
LAY DQN 算法 上 说 明 一 下 过 拟 合 问题 。 我 们 注意 到 Q-Learning 目标 
1 于 环境 、 非 稳 态 、 


不 会 小 于 噪声 的 最 大 期 望 ， 即 


函数 近似 


Q 值 往往 被 过 估计 了 。 文 献 (Thrun 





Ri + Q(Si41, arg max Q(S a; Ô); Ô), 
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E 写 为 如 下 式 子 : 


(4.9) 


4.5 Dueling DON 























在 式 子 中 可 以 注意 到 一 个 问题 6 既 用 于 估计 Q 值 ， 又 用 于 对 估计 过 程 中 的 下 一 个 动作 a 进 
行 选择 。 而 Double DQN 的 核心 思想 是 在 这 两 个 阶段 使 用 两 个 不 同 的 网 络 ， 以 去 除 选择 和 评价 ! 
噪声 的 相关 性 。 因 此 ， 需 要 一 个 额外 的 网 络 完成 这 项 工作 ， 而 DQN 结构 中 的 Q 网 络 则 是 一 个 很 
自然 能 想到 的 选择 。( 回 顾 一 下 DQN 结构 中 有 Q 网 络 和 目标 网 络 这 两 个 网 络 ， 并 通过 目标 网 络 
进行 评估 来 进一步 提高 稳定 性 。.) 因此 ，Double DON 中 使 用 的 Q 学 习 目 标 是 




































































































































































Ry QS. arg max Q(St+1, a; 0); 0). (4.10) 








在 Wang 等 人 (Wang et al., 2016) 的 工作 之 上 ， 我 们 通过 如 下 公式 计算 智能 体 分 数 相对 人 类 和 
基准 智能 体 分 数 的 提升 百分比 (有 正 有 负 ): 









































9COTeAgent = ScoreBaseline 





(4.11) 


max(Scorepaseline; ScoreHuman ) uni ScoreRandom 





























Double DQN 相 比 于 DON 的 效果 提升 情况 如 图 4.1 所 示 。 


























400% 





























图 4.1 Double DON (Van Hasselt et al., 2016) 相 比 于 DON (Mnih etal., 2015) 在 雅 达 利 基准 上 的 效果 提 
升 情况 。 计 算 标 准 参考 公式 (4.11)。 所 有 数据 来 自 文 献 (Wang et al., 2016) 















































4.5 Dueling DON 








对 于 某 些 状 态 来 说 ， 不 同 的 动作 与 预期 值 无 关 ， 因 此 我 们 不 需要 学 习 各 个 动作 对 该 状态 的 影 
啊 。 例 如 ， 假 想 我 们 在 山上 看 日 出 ， 美 丽 的 景色 令 人 陶 醇 ， 这 是 一 个 很 高 的 奖励 。 此 时 ， 你 即使 
在 这 里 继续 做 不 同 的 动作 也 不 会 对 Q 值 产生 影响 。 因 此 ， 将 动作 无 关 的 状态 值 与 Q 值 进行 解 耦 ， 
可 以 获得 更 加 重 棒 的 学 习 效 果 。 
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Dueling DQN 提出 了 一 种 新 的 网 络 结构 来 实现 这 一 思想 (Wang et al., 2016)。 更 准确 地 说 ，Q@ 
由 可 以 被 分 为 状态 值 和 动作 优势 这 两 部 分 : 




















— 


























Q" (s, a) = V"(s) + A" (s, a) (4.12) 








然后 ，Dueling DQN 通过 如 下 方法 将 这 两 部 分 的 表示 分 开 : 





Q(s, a;0,0,,0,) = V(s;0,0,) + (A(s, a; 9, 0a) — max A(s, a; 0, 04)) (4.13) 











其 中 0 和 0, 是 两 个 全 连接 层 的 参数 ，0 表示 卷 积 层 的 参数 。 注 意 公 式 (4.13) 中 的 max 函数 
确保 了 Q 值 能 唯一 地 对 应 状态 值 和 动作 优势 。 否则， 训练 将 忽略 状态 值 项 ， 并 只 会 使 优势 函数 收 
ME Q 值 。 此 外 ， 文 献 (Wang et al., 2016) 还 提出 使 用 取 平 均 代 蔡 取 最 大 值 的 方法 ， 以 获得 更 好 
的 稳定 性 : 



























































Q(s,;0,0,,0.) = V(;0,0,) + (A(5,2;0,0,) — [i 22 460,02) (4.14) 


a’ 








其 中 ， 优 势 函 数 只 需要 向 平均 优势 方向 靠近 ， 而 不 必 追 求 最 大 优势 。 
训练 Dueling 结构 和 训练 标准 DQN 一 样 ， 它 只 需要 更 多 的 网 络 层 。 实 验 表 明 ，Dueling 结构 
在 许多 价值 相似 的 动作 中 ， 能 获得 更 好 的 策略 评估 效果 。Dueling DON 相 比 于 DON 的 效果 提升 
效果 如 图 4.2 所 示 。 














































































































图 42 Dueling DON (Wang et al., 2016) 相 比 于 DON (Mnih et al, 2015) 在 雅 达 利 基准 上 的 效果 提升 ， 
计算 标准 参考 公式 (4.11)。 所 有 数据 来 自 文献 Wang et al, 2016) 
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4.6 优先 经 验 回 放 





4.6 ”优先 经 验 回放 


标准 DQN 中 还 剩 下 的 一 个 可 改进 的 地 方 就 是 ， 使 用 更 好 经 验 回放 采样 策略 。 优 先 经 验 回放 
(Prioritized Experience Replay, PER) 是 一 种 将 经 验 进 行 优先 排序 的 技术 。 通 过 该 技术 可 以 使 重要 
的 状态 转移 经 验 被 更 加 频繁 地 回放 (Schaul et al., 2015). PER 的 核心 思想 是 通过 TD 误差 6 来 考虑 
不 同 状态 转移 数据 的 重要 性 。TD 误差 5 是 一 个 令 人 惊喜 的 衡量 标准 。 该 方法 之 所 以 能 有 效 ， 是 
ET RSET eee Hee Ee ERS Ane Viera Ree 
富 信息 量 的 经 验 更 多 的 回放 机 会 ， 有 助 于 使 得 整个 学 习 进 度 更 为 快速 和 高 效 。 
当然 ， 直 接 使 用 TD 误差 做 优先 排序 是 最 直接 能 想到 的 方法 。 然 而 这 种 方法 有 一 些 问 题 。 
先 ， 扫 描 整 个 回放 缓存 空间 非常 低 效 。 其 次 ， 这 种 方法 对 近似 误差 和 随机 回报 的 噪声 十 分 敏感 。 
最 后 ， 这 种 贪心 的 方法 会 使 误差 收敛 缓慢 ， 可 能 导致 刚 开 始 训练 时 有 着 高 误差 的 状态 转移 被 频繁 
地 回放 。 为 了 克服 这 些 问题 ， 文 献 (Schaul et al., 2015) 提出 了 使 用 如 下 方法 计算 状态 转移 i 的 采 
样 概率 : 

















































































































































































































TH 












































a 
1 
DR 


RB. pi 指 状态 转移 i 的 优先 级 ， 它 是 一 个 正 数 ， 即 p; > 0. o 是 一 个 指数 超 参数 ，a = 0 对 
应 均匀 采样 情况 ， 而 有 表示 对 采样 的 状态 转移 进行 枚 举 。z 有 两 种 变 体 。 第 一 种 是 按 比例 优先 : 
pi 三 |6i| 十 e。 其 中 6; i d 的 TD 误差 ， 而。 是 一 个 用 于 数值 稳定 的 小 正 数 。 第 二 种 变 体 
是 基于 顺序 的 优先 : Pi = nuns RUP rank(i) 是 状态 转移 i 基于 |5i| 的 等 级 评定 。 
回想 起 在 回放 缓存 中 ， 正 是 因为 随机 采样 而 有 助 于 消除 样本 之 间 的 相关 性 的 。 然而 在 使 用 优 
先 采 样 时 ， 又 放弃 了 纯 随 机 采样 。 因 此 ,减少 高 优先 级 状态 转移 数据 的 训练 权重 也 有 一 定 的 道理 。 
PER 使 用 了 重要 性 采样 〈Importance-Sampling) 权重 来 修正 状态 转移 i 的 偏差 。 





P(i) = (4.15) 






































































































































mi 















































= (NP(i))? (4.16) 









































rh, N 指 回放 缓存 的 容量 大 小 ， 而 P 是 按照 公式 (4.15) 定义 的 概率 。8 是 训练 过 程 中 将 会 
退火 (Anneal) 233] 1 的 超 参数 ， 这 么 设置 是 由 于 随 着 训练 增加 ， 更 新 会 趋 近 于 无 偏 。 此 权重 通常 
被 折叠 进 损失 函数 来 构造 加 权 学 习 。 

为 了 更 有 效 地 实现 上 述 方法 ， 我 们 将 使 用 一 个 分 段 线性 函数 逼近 采样 概率 的 累积 密度 函数 ， 
函数 具有 段 。 更 准确 地 说 ， 优 先 级 存储 在 一 个 称 为 线段 树 的 高 效 查 询 数据 结构 中 。 在 运行 
日 
4. 





























































































































， 首 先 对 线段 范围 进行 采样 ， 然 后 在 该 线段 范围 内 的 样本 进行 均匀 采样 。 对 DON 的 改进 如 
3 所 示 。 























该 
期 
图 

















2 指 模拟 退火 法 中 的 退火 ， 一 种 简单 的 实现 是 线性 退火 ， 例 如 ， 若 设置 初始 值 0.6， 终 止 值 1.0， 最 大 迭代 步 数 为 100， 
则 第 0 入 上 < 100 4H 8 = 0.6 + t(1.0 — 0.6)/99 
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E& o> ITI P Ri 























图 43 使 用 基于 等 级 优先 排序 的 优先 经 验 回 放 算 法 (Schaul et al, 2015) 相 比 于 DON (Mnih et al, 
DRE CN GSS 2 Ae Cll), eee eM ane 
et al., 2016) 


47 ”其 他 改进 内 容 : 多 步 学 习 、 噪 声 网 络 和 值 分 布 强化 学 习 


Rainbow 在 包含 Double Q-Learning, Dueling 结构 和 PER 之 外 ， 还 包含 了 另外 3 个 DQN 的 
扩展 ， 并 在 雅 达 利 游戏 上 取得 了 显著 的 成 果 (Hessel et al., 2018)。 在 本 节 中 ， 我 们 将 对 此 展开 讨 
论 ， 并 进一步 讨论 它们 的 延伸 内 容 。 
第 一 个 扩展 是 多 步 学 习 CMulti-Step Learning )。 使 用 nn 步 回 报 将 使 估计 更 加 准确 , 也 被 证 明 可 
以 通过 适当 调整 n 值 来 加 快 学 习 速 度 (Sutton et al., 2018)。 然 而 ， 在 离线 策略 学 习 过 程 中 ， 目 标 策 
略 和 行为 策略 在 多 个 步骤 中 的 行为 选择 可 能 并 不 匹配 。 我 们 可 以 在 文献 (Hernandez-Garcia et al., 
2019) 中 找到 一 个 系统 性 的 研究 方法 来 纠正 此 类 错 配 问题 。Rainbow E E 更 用 了 来 自给 定 状 态 S, 
的 截断 的 nn 步 回报 RY) (Castro et al., 2018; Hessel et al., 2018)， 其 中 RY) 昌 以 下 公式 定义 。 










































































































































































































































































n—1 
(9 Y yg (4.17) 


接着 ，Q-Learning 多 步 学 习 变 体 的 目标 通过 下 式 定 义 。 
RP 4af max Q( Sete, a) (4.18) 
第 二 个 扩展 是 噪声 网 络 (Fortunato et aL, 2017)。 它 是 另 一 种 e 贪心 的 探索 算法 ， 对 于 像 《 蒙 


特 祖玛 的 复仇 》 这 样 需要 大 量 探索 的 游戏 十 分 有 效 。 我 们 使 用 一 个 额外 的 噪声 流 将 噪声 加 入 线性 
Jey =(Wa+b)#. 























128 


47 ”其 他 改进 内 容 : 多 步 学 习 、 喉 声 网 络 和 值 分 布 强化 学 习 





= (Wz EE b) zi ((Wroisy © Ew)T + Dnoisy © €b) (4.19) 














» © 表示 元 素 间 的 乘积 ，Wioisy 和 broisy 都 是 可 训练 的 参数 ， 而 ew 和 ep 是 将 退火 到 0 的 随机 





























的 标量 。 实 验 表 明 ， 品 声 网 络 相 比 于 许多 基线 算法 ， 使 得 众多 雅 达 利 游戏 的 得 分 有 了 大 幅 提 升 。 

最 后 一 个 扩展 是 值 分 布 强化 学 习 (Bellemare et al., 2017)。 该 方法 为 值 估计 提供 了 一 个 新 的 视 
角 。 文 献 Bellemare et al., 2017) 提出 了 分 布 式 贝尔 曼 算 子 T7 用 于 估计 回报 Z 的 分 布 ， 以 改进 过 
去 只 考虑 2 的 期 望 的 做 法 : 










































































T'Z=R+ PZ. (4.20) 


图 4.4 展示 了 7 的 一 种 连续 分 布 的 情况 









































图 44 一 种 分 布 式 贝尔 曼 算 子 在 连续 分 布 上 的 情况 。 它 提供 了 在 策略 x 下 ， 下 个 状态 的 回报 分 
布 。 它 将 先 被 折扣 因子 7 折 损 ， 然后 被 当前 时 间 步 中 的 奖励 移动 








I-A 


Rainbow 中 使 用 的 值 分 布 DON 变 体 被 称 为 离散 DON (Bellemare et al., 2017)， 它 通过 一 个 离 
散 分 布 来 对 状态 -动作 值 分 布 进行 建 模 ， 该 分 布 由 一 个 有 个 元 素 〈 也 被 称 为 原子 ) 的 向 量 z 参 
数 化 而 来 。 该 向 量 表示 为 zi = Vmin 十 (i 一 1)Az， 其 中 [Vinin, Vmax] 症状 态 .动作 信 分 布 的 范围 ， 
并 且 Az = You Vin, ZEEE, N 值 通常 设置 为 51， 因 此 ， 有 时 该 算法 也 被 称 为 CS1。C51 
的 参数 模型 9 输出 每 个 原子 概率 pils, a) = e909 5^ 6560 组 成 分 布 Zo。 其 中 值得 注意 的 是 ， 
离散 化 的 近似 会 导致 贝尔 曼 更 新 TZ 与 参数 化 的 Zo Wi. mi C51 通过 将 目标 分 布 TZ, 投影 
到 Ze 上 来 解决 这 个 问题 。 更 加 准确 地 说 ， 若 给 定 一 个 转移 数据 (S1, Ar, Re, S441)， 则 使 用 Double 
Q-Learning 的 投影 目标 PTT Z;(S,, A) 的 第 i 个 分 量 由 以 下 公式 算出 : 
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Vimax 
| + yzl — zila 
AS Jo 





N 
XO pj (St, arg max 27 p(Si41, a; 6); 4) [1 


j= 


(4.21) 


























Ht, E 将 其 参数 限制 在 [a,b] 范围 内 。 由 于 TD 误差 无 法 度量 值 分 布 之 间 的 差异 , 因此 C51 
提出 使 用 如 下 的 Kullbeck-Leibler 散 度 作为 训练 损失 : 


















































Dy (@T* Zoe(St, At)|| Zo (St, At))- (4.22) 




















另外 ， 用 于 经 验 回放 的 优先 级 也 被 KL 散 度 所 代替 。 对 于 Dueling 结构 ， 输 出 分 布 也 将 分 为 
价值 数据 流 和 优势 数据 流 ， 并 且 总 分 布 估计 如 下 所 示 : 




















| exp(Vi(s) + Ai(s,a) — Ai(s, a)) 
Pils 4) = SS oxp(Vi (0) + Aj(s, a) — A (s, a)) on 











其 中 





Aj(s,a) HI d Eu Ailsa!) 定义 。 

通过 C51 实现 的 值 分 布 强化 学 习 的 主要 缺点 是 , 它 只 能 在 一 个 固定 的 离散 集 上 估计 值 。 文 献 
(Dabney et al., 2018b) 提出 了 分 位 数 回归 DQN (Quantile Regression DQN，QR-DQN)， 通 过 分 位 
数 回归 估计 完整 分 布 的 分 位 数 来 解决 这 个 问题 。 在 介绍 QR-DQN 之 前 ， 我 们 先 来 看 看 这 个 分 位 
数 回 归 (Quantile Regression ) 。 回 想 一 下 ， 对 绝对 损失 函数 进行 经 验 风 险 最 小 化 ， 能 使 预测 符合 
EL (50% 分 位 数 )。 有 具体 来 说 ， 给 定 随机 变量 x 及 其 标签 y， 对 于 估计 函数 f. 经 验 平均 绝对 误 
FEN Lime = Ell f(x) — 加。 接着 用 如 下 的 偏 微分 : 






























































































































































P(f(x) > y)U (x) — y) + P(f (x) < y) — f()) 


= P(f(z) > y) - P(fG) < y) =0, (4.24) 
































我 们 能 得 到 P(r) = 0.5， 其 中 下 是 了 的 原 函 数 。 通 常 来 说 ， 对 于 分 位 数 7， 其 分 位 数 损失 害 
义 为 Lauantile (7) = Elp,(f(x) — v) 其 中 


TQ, tra > 0 
pr(a) = (4.25) 
(7 一 1)a， 其 他 









































与 之 类 似 ， 通 过 Som, PUNKS P(e) = 1 一 +7， 即 f(z) 是 随机 变量 y 的 7 分 位 数值 。 
UA KUL, QR-DQN 考虑 将 N 个 均匀 的 分 位 数 gq; = x 作为 值 分 布 。 对 于 一 个 QR-DQN 模 
A g: S RYA, EREMI, Q 值 的 状态 s 和 动作 a 是 N 个 估计 的 平均 值 ，Q(s,a) = 
Xx dlbi(s,a)。 在 训练 过 程 中 ， 基 于 Q 值 的 贪心 策略 在 下 个 状态 提供 a* = arg maxw Q(s', a), 
并 且 根 据 公式 (4.20)， 分 布 式 贝尔 曼 目 标 为 70 — r t 0;(s',a*)« CA (Dabney et al., 2018b) 中 
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的 引 理 2 指出 下 式 的 和 可 以 最 小 化 近似 值 分 布 与 真实 值 之 间 的 1-Wasserstein 距离 : 

















Me 


Il 
应 


2;[ps, (T 0j — 0i(s, a))]. (4.26) 











AU T N ZN 
图 4.5 展示 了 DQN. C51 和 QR-DQN 的 对 比 。 接 下 来 在 值 分 布 强化 学 习 上 ， 其 参数 化 分 布 
的 灵活 性 和 和 鲁 棒 性 上 还 有 更 多 的 工作 要 做 。 读 者 对 这 方面 感 兴趣 的 话 可 以 从 文献 (Dabney et al., 


2018a; Mavrin et al., 2019; Yang et al., 2019) 中 找到 相关 资源 。 
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图 45 对 比 s 和 动作 w FAN DON, C51 和 QR-DQN。 其 中 箭头 指向 的 是 估计 值 。QR-DQN 中 分 位 
数 的 数量 指定 为 4。DQN 的 结构 只 输出 实际 Q 值 的 近似 值 。 对 于 值 分 布 强化 学 习 ，C51 估 
计 了 多 个 Q 值 ， 而 QR-DQN 提供 了 Q 值 的 分 位 数 


















































4.8  DQN 代码 实例 


本 节 中 ， 我 们 将 围绕 DON 及 其 变 体 算法 讨论 更 多 训练 细节 。 首 先 演示 雅 达 利 环 境 的 设置 过 
程 ， 以 及 如 何 实现 一 些 十 分 有 用 的 装饰 器 (Wrapper) 。 高 效 地 使 用 装饰 器 能 使 训练 更 加 简单 和 




























































































Gym 环境 相关 


OpenAI Gym 是 一 个 用 于 开发 和 对 比 强化 学 习 算 法 的 开源 工具 包 。 它 包含 了 如 图 4.6 显示 的 
一 系列 环境 。 它 可 以 直接 从 PyPI 安装 , 默认 安装 包 不 带 有 和 雅 达 利 组 件 , 需要 使 用 雅 达 利 扩展 安装 : 








































































































pip install gym[atari] 

















也 可 以 直接 从 源 安装 。 














git clone https://github.com/openai/gym.git 
cd gym 
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pip install -e. 














图 46 OpenAl Gym 的 一 些 环境 








可 以 通过 以 下 代码 建立 环境 实例 env: 





Import gym 


env = gym.make(env id) 




















其 中 env id 是 环境 名 称 的 字符 串 。 所 有 可 用 的 env id 可 以 在 网 址 (链接 见 读者 服务 ) 上 
EF. 
env 实例 中 有 以 下 重要 的 方法 : 

1. env.reset() 重启 环境 并 返回 初始 的 观测 数据 。 

2. env.render(mode) 根据 所 给 的 mode 模式 呈现 环境 图 像 。 默 认为 human 模式 ， 它 将 呈 
现 当 前 显示 画面 或 者 终端 窗口 ， 并 不 返回 任何 内 容 。 你 可 以 指定 rgb array 模式 来 使 
env.render 函数 返回 numpy.ndarray 对 象 ， 这 些 数 据 可 用 于 生成 视频 。 

3. env.step(action) 在 环境 中 执行 动作 action， 并 运行 一 个 时 间 步 。 之 后 返回 Cobser- 
vation, reward, done, info) 的 数据 元 组 ， 其 中 observation 为 当前 环境 的 观测 数据 ， 
reward 是 状态 转移 的 奖励 ，done 指出 当前 片段 是 否 结束 ，info 则 包含 一 些 辅助 信息 。 

4. env.seed(seed) 手动 设置 随机 种 子 。 该 函数 在 复 现 效果 时 非常 有 用 。 

这 里 展示 了 一 个 经 典 游戏 Breakout ( 打 砖 块 ) 的 例子 。 我们 将 先 运行 一 个 BreakoutNoFrame- 
skip-v4 环境 的 实例 直到 本 片段 结束 。 游 戏 过 程 的 一 个 样 帧 图 像 如 图 4.7 所 示 。 




















































































































































































































import gym 


env = gym.make(’ BreakoutNoFrameskip-v4’) 
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0 = env.reset() 
while True: 
env.render() 
# take a random action 
a = env.action space.sample() 
o, r, done, _ = env.step(a) 
if done: 
break 


env.close( # close and clean up 



































图 47 Breakout 游戏 的 一 个 样 帧 图 像 。 在 屏幕 上 方 有 几 行 需要 被 破坏 的 砖 块 。 智 能 体 可 以 控制 
幕 下 方 的 挡 板 ， 并 控制 角度 弹射 小 球 到 想 要 的 位 置 来 撞 毁 砖 块 。 该 游戏 的 观测 数据 是 
状 为 (210,160, 3) 的 RGB 屏幕 图 像 


























NS = 




































































需要 注意 的 是 ， 游 戏 id 中 的 NoFrameskip 意味 着 没有 跳 帧 和 动作 重复 ， 而 v4 意思 是 当前 
为 第 4 个 版 本 ， 也 是 本 书写 稿 时 的 最 新 版 本 。 我 们 将 在 接 下 来 的 例子 中 使 用 该 环境 。 

OpenAI Gym 的 另 一 个 十 分 有 用 的 特性 是 环境 装饰 器 。 它 可 以 对 环境 对 象 进行 装饰 ， 使 训练 
代码 更 加 简洁 。 如 下 代码 展示 了 一 个 用 于 限制 每 个 回合 片段 最 大 长 度 的 时 间 限 制 装饰 器 ， 这 也 是 
雅 达 利 游戏 的 一 个 默认 装饰 器 。 


























































































































class TimeLimit(gym.Wrapper): 
def | init | (self, env, max episode steps-None): 
super(TimeLimit, self). init (env) 
self. max episode steps - max episode steps 


self. elapsed steps = 0 
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def step(self, ac): 


o, r, done, 


info = self.env.step(ac) 


self._elapsed_steps += 1 


if self._elapsed_steps >= self._max_episode_steps: 


done = True 


info[’TimeLimit.truncated’] = True 


return O, r, done, 


info 


def reset(self, **kwargs): 


self. elapsed steps - 0 


return self.env. 


reset(**kwargs) 





为 了 更 加 高 效 地 训练 ，gym.vector .AsyncVectorEnv 提供 
所 有 的 接口 将 统一 收 到 3 








量化 装饰 器 的 实现 。 











返回 n 


























KREERT 


6 器 ， 其 接口 也 接受 和 返 














高 效 地 运行 某 些 状态 转移 耗 时 较 长 的 环境 。 





一 系列 雅 








Gym 提供 














达 利 2600 游戏 的 标准 接 








数据 作为 输入 ， 使 用 街机 学 习 环 境 (Bellemare et al., 2013) 运 
些 游戏 最 多 包含 18 个 不 同 的 按键 组 合 : 
































个 变量 。 

















了 一 个 














口 。 这 些 游戏 可 以 以 游戏 内 存 数 据 或 者 


运行 。 在 这 2600 à 





来 并 行 运行 n 个 环境 的 
此 外 ， 还 可 以 实现 一 个 带 有 缓存 
回 nn 个 变量 ， 但 会 在 后 台 保 持 m > n 个 线程 。 











这 样 将 更 为 








FF ie RI 





像 








次 雅 










































































达 利 游戏 中 ， 





有 











1. 移动 按键 : 空 动 作 、 上 移 、 右 移 、 左 移 、 下 移 、 右 上 键 组 合 、 左 上 键 组 合 、 右 下 键 组 合 、 左 
THS. 
2. 攻击 按键 : 开火 、 上 移 开 火 组 合 、 右 移 开 火 组 合 、 左 移 开 火 组 合 、 下 移 开 火 组 合 、 右 上 开火 
组 合 、 左 上 开火 组 合 、 右 下 开火 组 合 、 左 下 开火 组 合 。 
此 处 的 空 动作 表示 什么 都 不 做 。 然 后 开火 键 可 能 被 作为 开始 游戏 的 按键 。 为 了 方便 起 见 ， 我 
们 后 续 将 以 按键 名 称 称呼 其 对 应 的 动作 。 
DQN 


DQN 还 有 三 个 额外 


的 j 














| 练 技巧 。 首 先 ， 依 次 使 ) 










































































如 下 的 装饰 器 可 以 让 训练 更 加 稳定 高 效 。 
































1. NoopResetEnv 在 重 置 游 戏 时 ， 会 随机 地 进行 几 步 空 动作 ， 以 确保 初始 化 的 状态 更 为 随机 。 
默认 的 最 大 空 动作 数量 为 30。 这 个 装饰 器 将 有 助 于 智能 体 收集 更 多 的 初始 状态 ， 提 供 更 为 
鲁 棒 的 学 习 。 

2. a 重复 每 个 动作 4 次 ， 以 提供 更 为 高 效 的 学 习 。 为 了 进一步 对 观测 数据 降 品 ， 

返回 的 图 像 帧 是 在 最 近 2 帧 上 对 像素 进行 最 大 池 化 的 结 

3. Monitor 记录 原始 奖励 数据 。 我 们 可 以 在 这 个 装饰 器 中 实现 一 些 有 用 的 函数 ， 比 如 速度 跟 

踪 器 。 
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4. EpisodicLifeEnv 使 得 本 条 命 结 束 的 时 候 ， 相 当 于 本 片段 结束 。 这 样 不 用 等 到 玩家 所 有 命 
都 消耗 完 才 能 结束 本 片段 ， 对 价值 估计 很 有 帮助 (Roderick et al., 2017). 





5. FireResetEnv 在 环 ] 

这 是 快速 开始 游戏 的 2 
6. WarpFrame 将 观测 数据 转换 为 84 x 84 的 灰 度 图 像 。 
行 装饰 ， 只 根据 奖励 数据 的 符号 输出 —1. 0. 1 三 种 奖励 
个 单独 的 小 批量 更 新 而 大 幅 改变 参数 ， 可 以 进一步 提高 稳定 性 。 





7. ClipRewardEnv 将 
值 。 这 样 防 止 任何 
8. FrameStack JE ix 
3 帧 来 用 函数 o 对 观测 数据 进行 预 处 理 。FrameStack 和 WarpFrame 实现 了 9 的 功能 。 需 要 
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漳 重 置 的 时 候 触发 



































Cae AIR o 






































励 通过 符号 进 



































后 4 

















火 动作 。 很 多 游戏 需要 这 个 开火 动作 来 开始 游戏 。 


















































it. 我们 回忆 一 下 ，DQN 为 了 捕捉 运动 信息 ， 通 过 堆 登 当前 帧 和 前 















































注意 的 是 ， 我 们 可 以 通过 只 在 观测 值 之 间 存 储 一 次 公共 帧 来 优化 内 存 使 用 ， 这 也 称 为 延迟 
帧 技术 CLazy-Frame Trick). 
























































其 次 ,为 避免 梯度 爆炸 , DQN (DeepMind, 2015; Mnih et al., 2015) 使 用 了 对 平方 误差 进行 了 裁 


和 前， 这 等 同 于 将 均 方 差 蔡 换 成 了 6 = 1 情况 下 的 Huber 损失 (Huber, 1992). Huber 损失 如 下 所 示 : 








最 终 ， 回 放 缓 存 采 样 了 大 批 有 放 回 的 抽样 。 在 和 全 





些 热 启动 步骤。 





(4.27) 
















































































E 够 有 个 稳定 的 开始 之 前 ， 最 后 还 需要 完成 一 











注意 到 上 述 所 说 的 全 部 三 个 技巧 都 用 于 本 节 中 所 有 的 实验 。 现 在 我 们 将 展示 如 何 建 立 一 个 能 





玩 Breakout 游戏 的 智能 体 。 















































9 先 ， 为 了 实验 的 可 复 现 性 ， 我 们 将 手动 设置 相关 库 的 随机 种 子 。 





random. seed(seed) 


np.random. seed(seed) 


tf.random. set_seed(seed) 











接着 ， 我 们 通过 tf.keras.Model 创建 一 个 Q 网 络 : 














class QFunc(tf.keras.Model): 


def __init__(self, name): 


super(QFunc, self).__init__(name=name) 


self.conv1 = tf.keras.layers.Conv2D( 
32, kernel size-(8, 8), strides-(4, 4), 


padding-'valid', activation-'relu') 


self.conv2 = tf.keras.layers.Conv2D( 
64, kernel size-(4, 4), strides-(2, 2), 
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padding-'valid', activation-'relu') 

self.conv3 = tf.keras.layers.Conv2D( 
64, kernel size-(3, 3), strides=(1, 1), 
padding-'valid', activation-'relu') 

self.flat - tf.keras.layers.Flatten() 

self.fcl = tf.keras.layers.Dense(512, activation=’relu’) 


self.fc2 - tf.keras.layers.Dense(action dim, activation-'linear') 


def call(self, pixels, **kwargs): 
# scale observation 
pixels = tf.divide(tf.cast(pixels, tf.float32), tf.constant(255.0)) 
# extract features by convolutional layers 
feature - self.flat(self.conv3(self.conv2(self.convi(pixels)))) 
# calculate q-value 


qvalue = self.fc2(self.fcl(feature)) 


return qvalue 











DON 对 象 的 定义 由 Q 网 络 、 目 标 Q 网 络 、 训 练 时 间 步 数目 和 优化 器 、 同 步 Q 网 络 、 目 标 Q 
网 络 这 些 属性 组 成 ， 代 码 如 下 所 示 。 




















class DQN(object): 
def __init__(self): 
self.qnet = QFunc('q') 
self.targetqnet = QFunc(’ targetq’) 
sync(self.qnet, self.targetqnet) 
self.niter = 0 


self.optimizer = tf.optimizers.Adam(lr, epsilon-1e-5, clipnorm-clipnorm) 








申明 一 个 内 部 方法 ， 以 装饰 Q 网 络 ， 之 后 再 给 DON 对 象 添加 一 个 get action 方法 来 执行 
ec- 贪心 的 行动 。 





cr 





@tf. function 
def _qvalues_func(self, obv): 


return self.qnet(obv) 


def get_action(self, obv): 
eps = epsilon(self.niter) 


if random.random() < eps: 
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return int(random.random() * action dim) 


else: 
obv = np.expand dims(obv, 0).astype(’ float32’) 


return self._qvalues_func(obv) .numpy() .argmax(1) [0] 

















ERT 10% 训练 时 间 步 中 , 将 e 线 性 地 从 1.0 退火 到 0.01 的 
其 变 体 提供 了 3 个 通用 接口 ， 即 train. | train func. 





其 中 , 这 里 的 epsilon 函数 是 一 个 禾 
函数 。 为 了 更 好 地 训练 ， 我 们 为 DQN 及 


_tderror_func. 





















































def train(self, b_o, b_a, b_r, b_o_, b_d): 
self._train_func(b_o, b_a, b_r, b_o_, b_d) 





self.niter += 1 


if self.niter 
sync(self.qnet, self.targetqnet) 


@tf. function 
def _train_func(self, b_o, b_a, b_r, b_o_, b_d): 


with tf.GradientTape() as tape: 
self. tderror func(b o, ba, br,bo ,b d) 








td errors - 
loss - tf.reduce mean(huber. loss(td errors)) 


grad = tape.gradient(loss, self.gnet.trainable weights) 
self.optimizer.apply_gradients(zip(grad, self.gnet.trainable weights)) 


return td errors 


@tf. function 
def _tderror_func(self, b_o, b_a, b_r, b_o_, b_d): 
b_q_ = (1 - b_d) * tf.reduce_max(self.targetqnet(b_o_), 1) 


b_q = tf.reduce_sum(self.qnet(b_o) * tf.one_hot(b_a, action_dim), 1) 





return b_q - (b_r + reward_gamma * b_q_) 










































































其 中 train 调用 了 _train_func 并 每 target q update. freq 个 时 间 步 将 目标 Q 网 络 与 Q 
网 络 进行 同步 。 
最 终 ， 我 们 构建 主要 训练 步骤 : 
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dqn = DQNO 
buffer = ReplayBuffer(buffer. size) 


0 = env.reset() 

nepisode - 6 

t - time.time() 

for i in range(1, number time steps + 1): 


a = dqn.get_action(o) 


# execute action and feed to replay buffer 
# note that ‘_‘ tail in var name means next 
o_, r, done, info = env.step(a) 


buffer.add(o, a, r, o. , done) 


if i »- warm start and i 
transitions - buffer.sample(batch size) 


dqn.train(*transitions) 


if done: 

o = env.reset() 
else: 

0-0 


# episode in info is real (unwrapped) message 
if info.get(’ episode’): 
nepisode += 1 
reward, length = info['episode']['r'], info[’episode’][’1’] 
print( 
'Time steps so far: {}, episode so far: {}, ' 
'episode reward: {:.4f}, episode length: {}’ 


.format(i, nepisode, reward, length) 








我 们 在 3 个 随机 种 子 上 运行 了 Breakout 游戏 107 个 时 间 步 (4 x 107 帧 )。 为 了 更 好 地 可 视 
化 ， 我 们 将 训练 时 的 片段 奖励 进行 平滑 处 理 。 之 后 通过 如 下 代码 绘制 均值 和 标准 差 ， 输 出 效果 如 
图 4.8 所 示 的 红色 区 域 。 


















































138 


4.8 DQN 代码 实例 














400 | 一 一 一 51 
—— DOUBLE 
—— DON 
Sa DUELING VS 


==) PER 


100 + 











0.0 0.2 0.4 0.6 0.8 1.0 
训练 时 间 187 


图 48 DON 及 其 变 体 在 Breakout 游戏 中 的 效果 ( 见 彩 插 ) 






































from matplotlib import pyplot as plt 
plt.plot(xs, mean, color=color) 


plt.fill_between(xs, mean - std, mean + std, color=color, alpha=.4) 





Double DQN 





























Double DQN 可 以 通过 更 新 Double Q 的 估计 来 简单 地 实现 。 在 智能 体 的 tderror func ! 
使 用 如 下 Double Q 估计 的 代码 进行 替换 即 可 。 





















































# double Q estimation 
b_a_ = tf.one hot(tf.argmax(gnet(b o. ), 1), out dim) 
b_q_ = (1 - b_d) * tf.reduce sum(targetqnet(b o.) * ba , 1) 









































我 们 也 在 Breakout 游戏 上 ， 使 用 3 个 随机 种 子 运 行 了 107 个 时 间 步 。 输 4 
上 的 绿色 区 域 。 





a Rz EY 4.8 
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Dueling DON 


Dueling 架构 只 对 Q 网 络 进行 了 修改 ， 它 可 以 通过 如 下 方式 实现 : 




















class QFunc(tf.keras.Model): 
def __init__(self, name): 


super(QFunc, self).__init__(name=name) 
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self.convl = tf.keras.layers.Conv2D( 
32, kernel_size=(8, 8), strides=(4, 4), 
padding-'valid', activation=’relu’) 
self.conv2 = tf.keras.layers.Conv2D( 
64, kernel_size=(4, 4), strides=(2, 2), 
padding-'valid', activation=’relu’) 
self.conv3 = tf.keras.layers.Conv2D( 
64, kernel_size=(3, 3), strides=(1, 1), 
padding-'valid', activation-'relu') 
self.flat - tf.keras.layers.Flatten() 
self.fclq = tf.keras.layers.Dense(512, activation=’relu’) 
self.fc2q = tf.keras.layers.Dense(action dim, activation=’ linear’) 
self.fclv = tf.keras.layers.Dense(512, activation=’relu’) 


self.fc2v = tf.keras.layers.Dense(1, activation=’ linear’) 


def call(self, pixels, **kwargs): 
# scale observation 
pixels - tf.divide(tf.cast(pixels, tf.float32), tf.constant(255.0)) 
# extract features by convolutional layers 
feature - self.flat(self.conv3(self.conv2(self.convi(pixels)))) 
# calculate q-value 
qvalue = self.fc2q(self.fclq(feature)) 
svalue = self.fc2v(self.fclv(feature)) 


return svalue + qvalue - tf.reduce mean(qvalue, 1, keepdims=True) 














我 们 同样 在 Breakout 游戏 上 ， 使 用 3 个 随机 种 子 运行 了 107 个 时 间 步 。 在 图 4.8 上 的 青色 区 域 是 












































该 方法 的 输出 效果 。 


经 验 优先 回放 




















PER 相 较 于 标准 的 DON 有 三 个 变化 。 首 先 ， 回 放 绥 存 维持 了 2 个 线段 树 进行 取 小 和 求 和 操 
作 ， 来 高 效 地 计算 最 小 优先 级 和 优先 级 之 和 。 更 具体 地 说 ，_it_sum 属性 是 具备 两 个 接口 的 求 和 



























































操作 线段 树 对 象 ，sum 用 于 获得 指定 区 间 内 的 元 素 之 和 ， 而 find_prefixsum_idx 
的 索引 i， 以 使 最 小 的 i 个 元 素 比 输入 值 要 小 。 
其 次 ， 为 了 代替 原本 的 均匀 采样 ， 考 虑 比例 信息 的 采样 策略 如 下 所 示 : 
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于 查找 更 高 


48 DQN 代码 实例 








res = 


L1 


p total = self. 


every range len - p total / batch. size 


.it sum.sum(8, len(self. 


for i in range(batch size): 

mass = random.random() 
idx - self. 
res.append(idx) 


return res 


_storage) - 1) 


* every range len + i * every range len 


_it_sum. find_prefixsum_idx(mass) 






























































































































































最 后 ， 不 同 于 普通 的 回放 缓存 ，PER 必须 返回 采样 经 验 的 索引 和 标准 化 的 权重 。 权 重用 于 计 
算 加 权 Huber 损失 ， 而 索引 则 用 于 更 新 优先 级 。 采 样 步骤 将 被 修改 为 
*transitions, idxs = buffer.sample(batch_size) 
priorities = dqn.train(*transitions) 
priorities = np.clip(np.abs(priorities), 1e-6, None) 
buffer.update priorities(idxs, priorities) 
train func 可 修改 为 
@tf. function 
def _train_func(self, b_o, b_a, b_r, b_o_, b_d, bw): 
with tf.GradientTape() as tape: 
td errors = self. tderror func(b o, ba, br, bo ,b d) 
loss = tf.reduce mean(huber loss(td errors) * b w) 
grad = tape.gradient(loss, self.gnet.trainable weights) 
self.optimizer.apply. gradients(zip(grad, self.gnet.trainable weights)) 
return td errors 
我 们 还 是 在 Breakout 游戏 上 ， 使 用 3 个 随机 种 子 运行 了 107 个 时 间 步 。 图 4.8 上 的 洋红 色 区 
域 是 该 方法 的 输出 效果 。 
深度 Q 分 布 网 络 

















， 我 们 将 通过 演示 如 何 实现 其 中 的 C51 技术 , 来 

















值 分 布 强化 学 习 对 @ 值 进行 估计 。 在 本 节 





实现 一 种 值 分 布 强化 学 习 方 法 。 在 Breakout 游戏 ! 

















et al., 2017) p f£ 

















的 范围 [—10, 10] 换 成 [—1, 19], 



































， 奖 励 都 是 正 数 。 因 此 , 我 们 将 文献 Bellemare 
1 是 为 了 允许 一 些 近似 误差 。 实 现 CSI 
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先 要 做 的 是 让 Q 网 络 给 每 个 动作 输出 51 个 估计 值 ， 这 点 可 以 通过 在 最 后 的 全 连接 层 增加 更 多 的 
输出 单元 来 实现 。 接 着 ,为 了 蔡 代 TD 误差 ， 需要 使 用 目标 Q 分 布 和 估计 分 布 之 间 的 KL 散 度 作 
为 误差 : 












































@tf.function 
def . kl divergence func(self, b o, b a, b_r, b_o_, b. d): 
b_r = tf.tile(C 
tf.reshape(b_r, [-1, 1]), 
tf.constant([1, atom_num]) 





) # batch_size * atom_num 

b_d = tf.tile( 
tf.reshape(b_d, [-1, 1]), 
tf.constant([1, atom_num]) 


z = b_r + (1 - b_d) * reward gamma * vrange # shift value distribution 
z = tf.clip by value(z, min value, max value) # clip the shifted distribution 
b = (z - min value) / deltaz 
index help = tf.expand dims(tf.tile(C 
tf.reshape(tf.range(batch size), [batch size, 1]), 
tf.constant([1, atom num]) 


2), -1) 


b_u = tf.cast(tf.math.ceil(b), tf.int32) # upper 

b. uid = tf.concat([index help, tf.expand dims(b u, -1)], 2) # indexes 
b. 1- tf.cast(tf.math.floor(b), tf.int32) 

b. lid = tf.concat([index help, tf.expand dims(b 1l, -1)], 2) # indexes 


b_dist_ = self.targetqnet(b o ) # whole distribution 
b_q_ = tf.reduce sum(b dist. * vrange broadcast, axis=2) 
b_a_ = tf.cast(tf.argmax(b q., 1), tf.int32) 
b_adist_ = tf.gather nd( # distribution of b a. 
b. dist. , 
tf.concat([tf.reshape(tf.range(batch size), [-1, 1]), 
tf.reshape(b a , [-1, 1])], axis-1) 
) 
b_adist = tf.gather nd( # distribution of b. a 
self.qnet(b. 0), 
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tf.concat([tf.reshape(tf.range(batch size), [-1, 1]), 
tf.reshape(b a, [-1, 1])], axis=1) 
) * 1e-8 


b 1-7 tf.cast(b 1, tf.float32) 
mu = b adist. * (b - b 1) * tf.math.log(tf.gather nd(b adist, b uid)) 
bu = tf.cast(b u, tf.float32) 
ml = b adist  * (b u - b) * tf.math.log(tf.gather nd(b adist, b lid)) 


kl. divergence = tf.negative(tf.reduce sum(mu + ml, axis-1)) 


return kl divergence 





























当然 我 们 在 Breakout 游戏 上 ， 使 用 3 个 随机 种 子 运 行 了 107 个 时 间 步 。 图 4.8 上 的 蓝 色 区 域 
是 该 方法 的 输出 效果 。 
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策略 梯度 














策略 梯度 方法 (Policy Gradient Methods) 是 一 类 直接 针对 期 望 回 报 Expected Return) 通过 
梯度 下 降 (Gradient Descent) 进行 策略 优化 的 增强 学 习 方 法 。 这 一 类 方法 避免 了 其 他 传统 增强 学 
习 方 法 所 面临 的 一 些 困 难 ， 比 如 ， 没 有 一 个 准确 的 价值 函数 ， 或 者 由 于 连续 的 状态 和 动作 空间 ， 
以 及 状态 信息 的 不 确定 性 而 导致 的 难 解 性 〈Intractability)。 在 这 一 章 中 ， 我 们 会 学 习 一 系列 策略 
梯度 方法 。 从 最 基本 的 REINFORCE 开始 ， 我 们 会 逐步 介绍 Actor-Critic 方法 及 其 分 布 式 计算 的 
版 本 、 信 赖 域 策 略 优化 〈Trust Region Policy Optimization) 及 其 近似 算法 ， 等 等 。 在 本 章 最 后 一 
节 ， 我 们 附 上 了 本 章 涉 及 的 所 有 方法 所 对 应 的 伪 代 码 ， 以 及 一 个 具体 的 实现 例子 。 
































































































































5.1 简介 








这 一 章 主要 介绍 策略 梯度 方法 。 和 上 一 章 介绍 的 学 习 Q 值 函 数 的 深度 Q-Learning 方法 不 同 ， 
策略 梯度 方法 直接 学 习 参 数 化 的 策略 re。 这 样 做 的 一 个 好 处 是 不 需要 在 动作 空间 中 求解 价值 最 
大 化 的 优化 问题 ， 从 而 比较 适合 解决 具有 高 维 或 者 连续 动作 空间 的 问题 。 策 略 梯度 方法 的 另 一 个 
好 处 是 可 以 很 自然 地 对 随机 策略 进行 建 模 1。 最 后 ， 策 略 梯度 方法 利用 了 梯度 的 信息 来 引导 优化 
的 过 程 。 一 般 来 讲 ， 这 样 的 方法 有 更 好 的 收敛 性 保证 2。 

顾名思义 ， 策 略 梯度 方法 通过 梯度 上 升 的 方法 直接 在 神经 网 络 的 参数 上 优化 智能 体 的 策略 。 
在 这 一 章 中 ， 我 们 会 在 5.2 节 中 推导 出 策略 梯度 的 初始 版 本 算法 。 这 个 算法 一 般 会 有 估计 方差 过 
高 的 问题 。 我 们 在 5.3 节 会 看 到 Actor-Critic 算法 可 以 有 效 地 减轻 这 个 问题 。 有趣 的 是 , Actor-Critic 
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1 在 价值 学 习 的 设 定 下 ， 智 能 体 需 要 额外 构造 它 的 探索 策略 ， 比 如 e- 贪 心 ， 以 对 随机 性 策略 进行 建 模 。 
2 但 一 般 也 仅 限 于 局 部 收敛 性 ,而 不 是 全 局 收敛 性 。 近 期 的 一 些 研究 在 策略 梯度 的 全 局 收敛 性 上 有 一 些 进展 , 但 本 章 不 
讨论 这 一 方面 的 工作 。 
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和 GAN 的 设计 非常 相像 。 我 们 会 在 5.4 节 比 较 它们 的 相似 之 处 。 在 5.5 节 、5.6 节 中 ， 我 们 会 接 
着 介绍 ActorCritic 的 分 布 式 版 本 。 最 后 ， 我 们 通过 考虑 在 策略 空间 《而 不 是 参数 空间 ) 中 的 梯 
度 上 升 进一步 提高 策略 梯度 方法 的 性 能 。 一 个 被 广泛 使 用 的 方法 是 信赖 域 策 略 优化 (Trust Region 
Policy Optimization, TRPO), 我 们 会 在 5.7 节 和 5.8 节 介绍 它 及 其 近似 版 本 ， 即 近 端 策略 优化 算法 
(Proximal Policy Optimization, PPO), WARE 5.9 节 中 介绍 使 用 Kronecker 因子 化 信赖 域 的 Actor 
Critic (Actor Critic using Kronecker-factored Trust Region, ACKTR). 

在 本 章 的 最 后 一 节 ， 即 5.10 节 中 ， 我 们 提供 了 所 涉及 算法 的 代码 实现 ， 以 方便 读者 可 以 迅速 
上 手 试验 。 每 个 算法 的 完整 实现 可 以 在 本 书 的 代码 库 找到 3。 










































































5.2 REINFORCE: 初版 策略 梯度 


REINFORCE 算法 在 策略 的 参数 空间 中 直观 地 通过 梯度 上 升 的 方法 逐步 
回顾 一 下 ， 由 式 子 (2.119) 我 们 有 
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注 5.1 上 述 式 子 中 DL, Ri 可 以 看 成 是 智能 体 在 状态 Si 处 选择 动作 4;， 并 在 之 后 执行 当前 策略 
的 情况 下 ， 从 第 i 步 开始 获得 的 累计 奖励 。 SKE, DLR 也 可 以 看 成 QLUAL, S), 4E iR 
5 S; 处 采取 动作 A;， 并 在 之 后 执行 当前 策略 的 @ 值 。 所 以 ， 一 个 理解 REINFORCE 的 角度 是 : 
通过 给 不 同 的 动作 所 对 应 的 梯度 根据 它们 的 累计 奖励 赋予 不 同 的 权重 ,鼓励 智能 体 选 择 那些 累计 
奖励 较 高 的 动作 Ajo 
只 要 把 上 述 式 子 中 的 全 BKR oo 并 赋予 R 以 yt 的 权重 ， 上 述 式 子 很 容易 可 以 扩展 到 折扣 
TH y 的 无 限 范围 的 设 定 如 下 。 
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VJ(0) = Erro Si (Av| Su)y Dea "R (5.2) 


t’=0 t=t’ 























由 于 折扣 因子 给 未 来 的 奖励 赋予 了 较 低 的 权重 , 使 用 折扣 因子 还 有 助 于 减少 估计 梯度 时 的 方差 大 
的 问题 。 实 际 使 用 中 ，xy* 经 常 被 去 掉 ， 从 而 避免 了 过 分 强调 轨迹 早期 状态 的 问题 。 

虽然 REINFORCE 简单 直观 ， 但 它 的 一 个 缺点 是 对 梯度 的 估计 有 较 大 的 方差 。 对 于 一 个 长 度 
为 工 的 轨迹 ， 奖 励 R, 的 随机 性 可 能 对 工 呈 指数 级 增长 。 为 了 减轻 估计 的 方差 太 大 这 个 问题 ,一 
个 常用 的 方法 是 引进 一 个 基准 函数 5(5;)。 这 里 对 5(5;) 的 要 求 是 : 它 只 能 是 一 个 关于 状态 5; 的 
函数 (或 者 更 确切 地 说 ， 它 不 能 是 关于 A; 的 函数 )。 


3 链接 见 读者 服务 
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有 了 基准 函数 O(S) 之 后 ， 增 强 学 习 目 标 函 数 的 梯度 VJ(9) 可 以 表示 成 



































VJ(0) = E. s, 
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5 Vo log Tol Av | Su) (= -Ë R; E «s 7 (5.3) 























Eno [Vo log ro (Ael Su)b(Su)] = Ero | (Se)Eo [Vlogro(Avl| Sv) Sv] | =0 64 


















































上 述 式 子 的 最 后 一 个 等 式 可 以 由 EGLP 引 理 〈 引 理 2.2) 得 到 。 最 后 如 算法 5.18 所 示 ， 我 们 得 到 
带 有 基准 函数 的 REINFORCE 算法 。 

































































算法 5.18 带 基 准 函 数 的 REINFORCE 算法 
超 参 数 : 步 长 mp、 奖励 折扣 因子 y. BEAL. HART B. ERM Db. 
输入 : 初始 策略 参数 00 
初始 化 9 = 0o 
for k=1,2,...,do 
执行 策略 re 得 到 B 个 轨迹 ， 每 一 个 有 工 步 ， 并 收集 {544, Are, Rie} 
Ate = De ey Rie — (Sui) i 
J(8) = BE Deo log To (Ae elSe e) Áo 
0 — 0 - ng V J(0) 
用 (S15, Ate, Rec} 更 新 D(S, p) 
end for 
返回 0 




































































直观 来 讲 ， 从 奖励 函数 中 减 去 一 个 基准 函数 这 个 方法 是 一 个 常见 的 降低 方差 的 方法 。 假 设 需 
要 估计 一 个 随机 变量 X 的 期 望 蕊 [X]。 对 于 任意 一 个 期 望 为 0 的 随机 变量 了 ， 我 们 知道 xX -Y 
KIRE E [X] 的 一 个 无 偏 估计 。 而 且 ， 关 一 了 的 方差 为 










































































V(X —Y) = V(X)+V(Y)— 2cov( X, Y). (5.5) 























式 子 中 的 V RRA, cov(X,Y) 表示 和 和 了 的 协 方差 。 所 以 如 果 Y 本身 的 方差 较 小 ， 而 且 
和 X 高 度 正 相关 ， 那 么 X —Y 会 是 一 个 方差 较 小 的 关于 ELX] 的 无 偏 估计 。 在 策略 梯度 方法 
中 ， 基 准 函 数 的 常见 选择 是 状态 价值 函数 V(5;)。 在 下 一 节 中 我 们 可 以 看 到 ， 这 个 算法 和 初版 的 
Actor-Critic 算法 很 相像 。 最近 的 一 些 研究 工作 也 提出 了 其 他 不 同 的 基准 函数 的 选择 ,， 感 兴趣 的 读 
者 可 以 从 文献 (Li et al., 2018; Liu et al., 2017; Wu et al., 2018) "F T HE £ HIA 
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5.3 Actor-Critic 








Actor-Critic 算法 (Konda et al., 2000; Sutton et al., 2000) 是 一 个 既 基 于 策略 也 基 
在 上 一 节 我 们 提 到 , 在 初版 策略 梯度 方法 中 可 以 用 状态 价值 函数 作为 基 


方差 。 Actor-Critic 算法 也 沿用 了 相同 的 想法 , 同时 学 习 行 动 


于 价值 的 方法 。 
准 函 数 来 降低 梯度 估计 的 
(Actor) 函数 (也 就 是 智能 体 的 策略 


































































































































































































































































































函数 (ls) 和 批判 者 (Critic) 函数 〈 也 就 是 状态 价值 函数 V7r(s))。 此 外 , Actor-Critic 算法 还 沿用 
了 自 举 法 (Bootstrapping) 的 思想 来 估计 Q 值 函 数 。REINFORCE 中 的 误差 项 D>, yt R,— b(S;) 
被 时 间 差 分 误差 取代 了 , 即 Ri + yV7 (Si+ ) = V7(S;)o 
我 们 这 里 采用 工 步 的 时 间 差 分 误差 ， 并 通过 最 小 化 该 误差 的 平方 来 学 习 批判 者 函数 V’ (s) 
Bp 
be Y = yV Jyro (Y). (5.6) 
式 子 中 多 表示 学 习 批判 者 函数 的 参数 ，m 是 学 习 步 长 ， 并 且 
2 
1 i+L-1 
Jve) = 5 | 3 YR ea VE (8") — vs) (5.7) 
i—i 
S' 是 智能 体 在 re 下 工 步 之 后 到 达 的 状态 ， 所 以 
i+L—1 
VJyro (9) = | V;^ (S EE YR, — a" Vr (8") | VVZ (So). (5.8) 
类 似 地 ， 行 动 者 函数 molls) 决定 每 个 状态 s 上 所 采取 的 动作 或 者 动作 空间 上 的 一 个 概率 分 
布 。 我 们 采用 和 初版 策略 梯度 相似 的 方法 来 学 习 这 个 策略 函数 。 
0=0+ No V Jro (9), (5.9) 
这 里 9 表示 行动 者 函数 的 参数 ，76 是 学 习 步 长 ， 并 
i+L—-1 
VJ(0) = Eo Y Vlog mo(Ail Si) | XO v Ri Y VG) — Vz*(8;) (5.10) 
?一 0 t=2 
注意 到 ， 我 们 这 里 分 别 用 了 0 和 乡 来 表示 策略 函数 和 价值 函数 的 参数 。 在 实际 应 用 中 ， 当 我 
们 选择 用 神经 网 络 来 表示 这 两 个 函数 的 时 候 ， 经 常会 让 两 个 网 络 共享 一 些 底层 的 网 络 层 作为 共同 
的 状态 表征 (State Representation)。 此 外 ，AC 算法 中 的 工 值 经 常设 为 1, 也 就 是 TD(0) 误差 。AC 
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算法 的 具体 步骤 如 算法 5.19 所 示 。 


算法 5.19 Actor-Critic 算法 
BER: HK no 和 Th. 奖励 折扣 因子 yo 
输入 : 初始 策略 函数 参数 6、 初始 价值 函数 参数 poo 
初始 化 9= Oo 和沙 = Yoo 
for t = 0,1,2,--- do 
执行 一 步 策略 T9, 保存 (Sz, At, Re, Str1}。 
估计 优势 函数 Ay = Ri FIVE” (St+1) — Vj? (S1). 
J(0) — ee log ro (Ar) Ar 























Jyzo (9) = 3, A1 
b= Y + yY Jyzo (4), 0 = 0 + mV J(0) 
end for 
































值得 注意 的 是 ，AC 算法 也 可 以 使 用 Q 值 函数 作为 其 批判 者 。 在 这 种 情况 下 ， 优 势 函 数 可 以 
用 以 下 式 子 估计 。 





























Q(s, a) — V(s) = Q(s, a) — 5 v (a|s)Q(s, a). (5.11) 


用 来 学 习 Q 值 函数 这 个 批判 者 的 损失 函数 为 
Jo = (Ri + 7Q(Si41, Ana) - Q(Si, AQ) ; (5.12) 


或 者 


2 
Jo = (x + >, Tola|St+1)Q(St+1, a) an olsn ao) E (5.13) 











这 里 动作 Avus 由 当前 策略 re 在 状态 S441 下 取样 而 得 。 

















5.4 ”生成 对 抗 网 络 和 Actor-Critic 


初 看 上 去 ,生成 对 抗 网 络 (Generative Adversarial Networks, GAN) (Goodfellow et al., 2014) 和 
Actor-Critic 应 该 是 截然 不 同 的 算法 ， 用 于 不 同 的 机 器 学 习 领 域 ， 一 个 是 生成 模型 ， 而 另 一 个 是 强 
化 学 习 算 法 。 但 是 实际 上 它们 的 结构 十 分 类 似 。 对 于 GAN， 有 两 个 部 分 ,用 于 根据 菜 些 输 入 生成 
对 象 的 生成 网 络 ， 以 及 紧 接 生成 网 络 的 用 于 判断 生成 对 象 真实 与 否 的 判别 网 络 。 对 于 Actor-Critic 
方法 ， 也 有 两 部 分 : 根据 状态 输入 生成 动作 的 动作 网 络 ， 以 及 一 个 紧 接 动作 网 络 之 后 用 价值 函数 
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N 








《比如 下 一 个 动作 的 价值 或 Q E) Ti 
























































估 动 作 好 坏 的 批判 网 络 。 
Alt, GAN 和 Actor-Critic 基本 遵循 相同 的 结构 。 在 这 个 结构 中 有 两 个 相继 的 部 分 : 一 个 用 









































于 生成 物体 ， 第 二 个 用 一 个 分 数 来 评估 生成 物体 的 好 坏 ; 随后 选择 一 个 优化 过 程 来 使 第 二 部 分 能 






































够 准确 评估 ， 并 通过 第 二 部 分 反 向 传播 梯度 到 第 一 部 分 来 保证 它 生 成 我 们 想 要 的 内 容 ， 通 过 一 
定义 为 损失 函数 的 标准 ， 也 就 是 一 个 来 自 结构 第 二 部 分 的 分 数 或 价值 函数 来 实现 。 























> 














GAN 和 Actor-Critic 的 结构 详细 比较 如 图 5.1 


GAN 








所 示 。 


反 向 传播 













| max D(G(z)) 








2 —> 生成 器 > G(z) 判别 器 D(G(2)) minD(G(z)) 
~N(0,1) (Generator) » (Discriminator) ee maxD(z) 
Actor-Critic (Q 值 ) 反 向 传播 min MSE(Q(s,a), r+y*Q(s',a')) 














E ile 行动 者 a —> 


来 自 环境 (Actor) 








max Q(s,a) 






批判 者 
(Critic) 





r + Y*Q(s'') 











图 51 对 比 GAN 和 Actor-Critic 的 结构 。 在 GAN ! 





























!, z 是 输入 的 噪声 变量 ， 它 可 以 从 如 正 态 分 布 


中 采样 ， 而 x 是 从 真实 目标 中 采集 的 数据 样本 。 在 Actor-Critic 中 ，s 和 a 分 别 表 示 状 态 和 











动作 























。 对 第 一 个 生成 物体 的 部 分 : GAN 中 的 生成 器 和 Actor-Critic 中 的 行动 者 基本 一 致 ， 包括 其 前 
向 推理 过 程 和 反 向 梯度 优化 过 程 。 对 于 前 向 过 程 ， 生 成 器 采用 随机 变量 做 输入 ， 并 输出 生 




















成 的 对 象 ， 对 于 方向 优化 过 程 ， 它 的 目标 是 
作为 输入 并 输出 动作 ， 对 于 优化 来 说 ， 它 的 目标 是 最 大 化 状态 -动作 对 的 评估 值 。 















































最 大 化 对 生成 对 象 的 判别 分 数 。 行 动 者 用 状态 






































。 对 于 第 二 个 评估 物体 的 部 分 : 判别 器 和 批判 者 由 于 其 功能 不 同 而 优化 公式 也 不 同 , 但 是 遵循 
相同 的 目标 。 判 别 器 有 来 自 真 实 对 象 额外 输入 。 它 的 优化 规则 是 最 大 化 真实 对 象 的 判别 值 而 
最 小 化 生成 对 象 的 判别 值 ， 这 与 我 们 的 需要 相符 。 对 于 批判 者 ， 它 使 用 时 间 差 分 (Temporal 











































































































Difference, TD) 误差 作为 强化 学 习 中 的 一 种 E 











也 有 一 些 其 他 模型 彼此 非常 接近 。 举 例 来 说 ， 














举 方法 来 按照 最 优 贝尔 曼 方 程 优化 价值 函数 。 























绊 动 编码 器 CAuto-Encoder, AE) 和 GAN 可 
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以 是 彼此 的 相反 结构 等 。 注 意 到 ， 不 同 深度 学 习 框架 中 的 相似 性 可 以 帮助 你 获取 关于 现 有 不 同 领 
域 方法 共性 的 认识 ， 而 这 有 助 于 为 未 解决 的 问题 提出 新 的 方法 。 


























5.5 ”同步 优势 Actor-Critic 


同步 优势 Actor-Critic (Synchronous Advantage ActorCritic，A2C) (Mnih et al., 2016) 和 上 一 

节 讨 论 的 ActorCritic 算法 非常 相似 ， 只 是 在 Actor-Critic 算法 的 基础 上 增加 了 并 行 计 算 的 设计 。 
如 图 5.2 所 示 ， 全 局 行动 者 和 全 局 批判 者 在 Master 节点 维护 。 每 个 Worker 节点 的 增强 学 习 
智能 体 通过 协调 器 和 全 局 行动 者 、 全 局 批判 者 对 话 。 在 这 个 设计 中 ,协调 器 负责 收集 各 个 Worker 
入 点 上 与 环境 交互 的 经 验 (Experience)， 然 后 根据 收集 到 的 轨迹 执行 一 步 更 新 。 更 新 之 后 ， 全 局 
行动 者 被 同步 到 各 个 Worker 上 继续 和 环境 交互 。 在 Master 节点 上 ， 全 局 行动 者 和 全 局 批判 者 的 
学 习 方 法 和 Actor-Critic 算法 中 行动 者 和 批判 者 的 学 习 方 法 一 致 ， 都 是 使 用 TD 平方 误差 作为 批 
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au 










































































































































































判 者 的 损失 函数 ， 以 及 TD 误差 的 策略 梯度 来 更 新 行动 者 的 。 











局 行动 者 和 全 局 批判 者 
协调 器 


(Vy, To) (t (Vy, Ttg) | | (Ay, Ag) aN (Ay, Ag) 





全 局 行动 者 全 局 行动 者 全 局 行动 者 
和 全 局 批判 者 和 全 局 批判 者 和 全 局 批判 者 
(r,s') a | (r, s') a | ms 

环境 





图 5.2 A2C 基本 框架 





在 这 种 设计 下 ，Worker 节点 只 负责 和 环境 交互 。 所 有 的 计算 和 更 新 都 发 生 在 Master 节点 。 实 
际 应 用 中 ， 如 果 希 望 降低 Master 节点 的 计算 负担 , 一 些 计 算 也 可 以 转交 给 Worker 节点 4， 比 如 说 ， 
每 个 Worker 节点 保存 了 当前 全 局 批判 者 (Critic)。 收 集 了 一 个 轨迹 之 后 ，Worker 节点 直接 在 本 
地 计算 给 出 全 局 行动 者 (Actor) 和 全 局 批判 者 的 梯度 。 这 些 梯 度 信息 继而 被 传送 回 Master 节点 。 
最 后 ， 协 调 器 负责 收集 和 汇总 从 各 个 Worker 节点 收集 到 的 梯度 信息 ， 并 更 新 全 局 模型 。 同 样 地 ， 
更 新 后 的 全 局 行动 者 和 全 局 批判 者 被 同步 到 各 个 Worker 节点 。A2C 算法 的 基本 框架 如 算法 5.20 
所 示 。 


这 经 常 取决 于 每 个 Worker 节点 的 计算 能 力 ， 比 如 是 否 有 GPU 计算 能 力 ， 等 等 
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算法 5.20 A2C 





Master: 
BEM: HAC ny 和 no, Worker 节点 集 W. 
输入 : 初始 策略 函数 参数 90、 初 始 价值 函数 参数 Yoo 
初始 化 9= Oo Fl  — vio 
for k = 0,1,2,--- do 

(gy, ge) =0 

for W 里 每 一 个 Worker 节点 do 

(gu; go) z (Jy, go) 5p worker(V/7^ , To) 

end for 

V = Y — Ny gy; 0 — 0 + Nogo. 
end for 








Worker: 

BER: 奖励 折扣 因子 yY、 轨 迹 长 度 工 。 

输入 : 价值 函数 Vm、 策略 函数 ro。 

执行 工 步 策略 mo. 保存 (S1, At, Re, Stri} 

估计 优势 函数 A, = Ri 十 addi (Si44) 一 Vie (9,)。 
J(0) = Y, log ro(4i1S0) At 

Jye (0) =D Â? 

(gy, g0) = (Y Jyzo (4), VJ(0)) 


` 


返回 (gu. go) 


























5.6 “异步 优势 Actor-Critic 


























异步 优势 Actor-Critic (Asynchronous Advantage Actor-Critic, A3C) (Mnih et al., 2016) 是 上 一 








节 中 A2C 的 异步 版 本 。 在 A3C 的 设计 中 ， 协 调 器 被 移 除 。 每 个 Worker 节点 直接 和 全 局 行动 者 和 























全 局 批判 者 进行 对 话 。Master 节点 则 不 再 需要 等 待 各 个 Worker 节点 提供 




















次 有 Worker 节点 结束 梯度 计算 的 时 候 直 接 更 新 全 局 Actor-Critic。 

































































的 梯度 信息 ， 而 是 在 每 


























IFA 


和 需要 等 待 ，A3C ALL 


A2C 更 高 的 计算 效率 。 但 是 同样 也 由 于 没有 协调 器 协调 各 个 Worker 节点 ，Worker 节点 提供 梯度 
言 息 和 全 局 Actor-Critic 的 一 致 性 不 再 成 立 ， 即 每 次 Master 节点 从 Worker 节点 得 到 的 梯度 信息 很 









































可 能 不 再 是 当前 全 局 Actor-Critic 的 梯度 信息 。 








注 5.2 BA ABC 为 了 计算 效率 而 牺牲 Worker 节点 和 Master 节点 的 一 致 性 这 一 点 看 起 来 有 些 特 
殊 ， 这 种 异步 更 新 的 方式 在 神经 网 络 的 更 新 中 其 实 非 常常 见 。 近 期 的 研究 (Mitliagkas et al., 2016) 
还 表明 ， 异 步 更 新 不 仅 加 速 了 学 习 ， 还 自动 为 SGD 产生 了 类 似 于 动量 (Momentum) 的 效果 。 
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算法 5.21 A3C 





Master: 


BSR: 步 长 yw 和 me、 当前 策略 函数 re 


输入 : 梯度 gu. ge» 


p = V — ygyi; 0 = 0 + ego 





BE (V7, 


TQ) 




















、 价 值 函 数 Vr。 





Worker: 
超人 参数 : 奖 
输入 : 策略 
(go, go) = 


励 折 扣 





0,0) 








大 








for k = 1,2,--- , do 
(0, Y) = Master(go, gy) 
Jur 工 步 策略 To, 保存 (S1, At, Ri, Siti} 
估计 优势 函数 A, = Ry + 225 (St41) 一 Vr (S) 
J(0) = Y^ log To (Alst) At 





Jy (4) = 32, A? 


Fy WEKE Lo 




















函数 re、 价值 函数 VI o 


(9% 90) = (VJyze (0), V J(0)) 


end for 





5.7 ”信赖 域 策 略 优化 








截至 目前 , 我 们 在 本 章 中 介绍 了 初版 策略 梯度 方法 及 其 并 行 计算 版 本 。 在 异步 ActorCritic 的 
策略 梯度 中 ， 我 们 更 新 策略 如 下 。 














Ke 
hE 





和 标准 的 梯度 下 降 算 法 一 样 ， 初 版 策 








0 — 0-- ge VJ(0), 














VJ(6) = Ero | > Vlogzo(A;| S;) A" (Si, As) | , 


i—0 


其 中 优势 函数 AT (, a) 定义 为 


A™ (s, a) = Q™ (s, a) — V^ (s). 














(5.14) 


(5.15) 


(5.16) 


各 梯度 方法 也 有 步 长 不 好 确定 的 缺陷 。 梯 度 V J(0) 本 
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身 只 提供 了 在 当前 0 下 
Dx aia SBCA AAT, ABA SUSY 


























局 部 的 一 阶 信息 而 忽略 了 奖励 函数 定义 的 1 








面 的 











HE. MRE RES 















































的 


能 可 能 会 突然 大 幅 下 降 。 相 反 地 ， 如 果 选 择 的 步 长 太 





5.7 ”信赖 域 策略 优化 





小 ， 学 习 的 过 程 可 能 会 太 





呆 守 ， 从 而 非常 缓慢 。 








当前 策略 re 收集 的 样本 





估计 。 











的 样本 的 ER, 这 让 学 习 





初版 策略 梯度 方法 的 另 一 个 局 限 是 : 它 的 更 





X 
际 应 用 






































o(0) 是 Sigmod 函数 。 假 设 在 第 
被 从 0 = 1.5 更 新 到 了 0 = 一 1.5。 两 种 
间 中 从 几乎 是 x ~ (1.00,0.00) 变 成 了 7 ~ (0.95,0.05)， 而 在 另 一 种 情况 下 ， 
新 到 了 m = (0.18, 0.82)。 虽 然 两 者 在 参数 空 











= 


HUF, no 在 策略 空 
(0.82, 0.18) 被 更 











T = 











HIER 





为 相同 的 步 长 mo 可 能 使 策略 re 在 策略 空间 ， 
更 加 难以 选择 。 举 个 


列子 ， 


EE, 


策略 梯度 方法 中 的 梯度 VI (0) 需 








需要 从 基于 

















策略 性 能 的 突然 下 降 或 才 

















EE 对 于 步 长 的 选择 更 敏感 。 











新 是 在 参数 空 








D - (sn 20, {7 =1}. 


提升 太 过 缓慢 ， 会 反 过 3 


影响 收集 到 


YE ZX 一 


XETT 

















间 ， 而 不 是 策略 空间 1 的 。 





(5.17) 















































略 空 间 中 的 更 
FEAT 














个 能 更 好 处 到 








种 | 

















情况 re 在 参数 空间 中 





有 完全 不 一 村 


幅度 的 更 新 ， 这 使 得 步 长 ng 在 实 





考虑 当前 的 策略 m = (c(0)， 
青 况 下 ，0 被 从 0 = 6 更 新 到 了 0 = 3。 而 在 另 一 
和 更 新 






































1 一 o(9)) 的 两 种 不 同情 况 。 这 旦 
' 情 况 ! 
然而 ， 在 第 























, 0 
一 种 























HEERE 3。 





















































新 幅度 却 完 全 不 同 。 
， 我 们 会 开发 一 


! 步 长 的 策 











想法 , 所 以 被 称 为 信赖 域 策略 优化 算 


我 们 的 目 





2015)。 注 意 到 ， 





提供 了 一 个 很 深刻 的 联系 : 


文献 (Kakade et al., 2002) ik 6’ 表 


引 理 5.1 





这 里 (0) = 























TOTS E veia] š 
t=0 
然而 ， 上 述 式 子 其 实 难以 直接 优化 ， 因 为 式 子 中 的 
一 个 近似 ， 我 们 用 C (7) 表示 ， 如 下 式 。 























标 是 找 


DNE 





到 一 个 比 
到 a 在 性 能 
示 zh 的 参数 。 























t=0 





























oo 
E 
ATOT 



































t=0 


P» 7 A"* (Ss, a] 


略 梯度 算法 。 这 个 算法 的 ， 
iik (Trust Region Policy Optimization, TRPO) (Schulman et al., 

原 策略 re 更 好 的 策略 mo. FRIN mo 和 的 性 能 
能 上 的 提升 ， 可 以 由 re 的 优势 函数 AT (s, a) 来 计算 。 























的 更 新 幅度 相同 ， 但 是 在 策 


ig] 






































CADET fe Wi) 











| . (5.18) 


roro Door R(S Ag], 7 是 由 产生 的 同 状态 动作 轨迹 。 


所 以 ， 学 习 最 优 的 集 略 ro 等 价 于 最 大 化 以 下 这 个 目标 


(5.19) 





期 望 是 在 my 上 。 基 于 此 ，TRPO 优化 该 式 子 的 








(5.20) 
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一 spas (5) [Benen (al [A™ (s, a)| sl (5.21) 
fd Ep. (s) [Es s; [A7 (s,a)| sl (5.22) 
Lp : Talal s) As, 
三 | amvre(al s) ma e] (5.23) 
7 3 ufo C St) ao 
— rg ———— — Af? ,4 y .24 
» mA S) 4 S ] xs 
H Ln (mw) 表示 上 述 等 式 的 最 后 一 个 式 子 ， 即 
LE (Atl St) are 
Lro (Tb) = 此 7T~Tp » URS (S4, Az) 7 
在 上 面 的 式 子 中 ， 我 们 直接 用 po (s) 来 近似 pu (s)。 这 个 近似 虽然 看 似 粗糙 ,但 下 面 的 定理 在 理 
论 上 证 明了 ， 当 re WI m 相似 的 时 候 ， 这 个 近似 并 不 差 。 
定理 5.1 让 DR (nol) = maxs Dr(re( sjlng(|s)) 那么 
17(0) — J(8) — £x, (mo)| < CD (To ||776)- (325) 


这 里 CO 是 和 Tb 无 关 的 常数 。 









































地 被 作为 一 个 优化 目标 。 这 便 是 TRPO 


























因此 , 如 果 DEX (06 ||) 很 小 , 那么 La, (05) 可 以 合 至 
的 想法 。 实 际 中 ，TRPO 试图 在 平均 KL 散 度 的 约束 下 优化 Cr (rr 人， 如 下 所 示 。 
max Cro(Tb) 
s.t. e [Drr (16||n5)] x ó. 














(5.26) 








我 们 进一步 讨论 如 何 解 TRPO : 








的 这 个 优化 问题 。 这 里 我 们 利 / 











的 二 阶 近似 。 事 实 上 ，C (ah) 在 策 











g = VoLro (ro)lo = 








] 目 标 函 数 的 一 阶 近似 和 约束 
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HA mo 处 的 梯度 和 Actor-Critic 中 一 样 。 











c» Veni Ai St) 
E e MEL LABEM 5.27 
í t=0 * fo (Ad St) (nda) 9 : : 
P 3 t Teo 
ATN NAO > y Vo log to ( Ad] St) A (Si, a] à (5.28) 
t=0 0 


5.8 近 端 策略 优化 























此 外 , ik H Xm Es~p,, [Dku(rellrg)] 的 Hessian 矩阵 ， 那 么 ，TRPO 在 当前 的 re 求解 如 下 
优化 问题 。 


0' = arg max g (0' — 0) (5.29) 


st (6 — 0)' H(9'-0) <6. 


易 见 这 个 问题 的 解析 解 存 在 : 





26 2 
8 =0+ g Hag 1g. (5.30) 














Sein, FRA HI SEC E SOE ORI 五 -19g5。 我 们 选择 合适 的 步 长 来 保证 满足 样本 上 的 
KL 散 度 约 束 。 最 后 , 价值 函数 的 学 习 通 过 最 小 化 MSE 误差 达到 。 基 于 论文 (Schulman et al., 2015) 
的 完整 的 TRPO 算法 在 算法 5.22 中 。 
注 5.3 负 值 Hessian 4E —H 也 被 称 为 Fisher 12. 272%. BRE, Amt, + Fisher 13.24 
阵 应 用 到 梯度 下 降 算 法 中 已 经 有 不 少 的 研究 ， 被 称 为 自然 梯度 (Nature Gradient) 下 降 。 这 个 方 
法 的 一 个 好 处 是 ， 它 对 于 再 参数 化 是 不 变 的 ， 也 即 ， 不 管 函 数 参 数 化 的 方法 是 什么 ， 该 梯度 保持 
不 变 。 想 了 解 更 多 关于 自然 梯度 的 细节 ， 请 参考 论文 (Amari, 1998). 


















































5.8 rum RRR IL 


上 一 节 我 们 介绍 了 信赖 域 策 略 优化 算法 CTRPO). TRPO 的 实现 较为 复杂 ， 而 且 计 算 自 然 
梯度 的 计算 复杂 度 也 较 高 。 即 使 是 用 共 思 梯 度 法 来 近似 五 -1g， 每 一 次 更 新 参数 也 需要 多 步 的 
共 轿 梯度 算法 。 在 这 一 节 中 ， 我 们 介绍 另 一 个 策略 梯度 方法 ， 即 近 端 策略 优化 (Proximal Policy 
Optimization, PPO). PPO 用 一 个 更 简单 有 效 的 方法 来 强制 re 和 rh 相似 (Schulman et al., 2017). 
回顾 TRPO 中 的 优化 问题 式 (5.26): 





































































































max L,,(79) (5.35) 
T$ 
S.t. Ls~pro [Dx (o ||15)] x ó. (5.36) 











与 其 优化 一 个 带 约束 的 优化 问题 ，PPO 直接 优化 它 的 正则 化 版 本 。 




















max Ly, (75) —A Es~ pry [Dxx(6||76)] - (5.37) 
To 
































5 一 般 来 讲 ， 计 算 H 71 需要 计算 复杂 度 O(N3)。 这 在 实际 应 用 中 一 般 代价 十 分 晶 贵 ， 因 为 这 里 的 N 是 模型 参数 的 个 
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算法 5.22 TRPO 








超 参 数 : KL- 散 度 上 限 S HMR a RAEMP K. 

输入 : 回放 缓存 D6、 初 始 策略 函数 参数 0、 初 始 价值 函数 参数 Goo 

for episode = 0,1,2,--- do 

在 环境 中 执行 策略 zj = n(0x) 并 保存 轨迹 集 Dy, = {Ti} 0 

计算 将 得 到 的 奖励 Gy 

基于 当前 的 价值 函数 Vo, 计算 优势 函数 估计 A, (使 用 任何 估计 优势 的 方 
估计 策略 梯度 










































































1 
Ok = [Dil N 5 Vo log 76(Ail St) 9, At 


TED t=0 























EHRM ES Th GE 








^ fra 
Sy ~ H; ĝk 


这 里 ET, 是 样本 平均 KL 散 度 的 Hessian JB[ 
通过 回调 线 搜索 更 新 策略 : 











20 


êT HL 





0,,1 = 0, +0! Êk 





















































梯度 下 降 的 算法 最 小 化 均 方 误差 来 拟 合 价值 函数 ， 











T 
Qk41 = arg min Dar b» 5 (Vo(Se) Tz à) 


TED, t=0 


end for 


法 )。 


(5.31) 


(5.32) 


(5.33) 


是 {0, 1,2,… K} 中 提高 样本 损失 并 且 满 足 样本 KL 散 度 约束 的 最 小 值 。 
上 


(5.34) 

















这 里 A 是 正则 化 系数 。 对 于 式 (5.26) 每 一 个 5 值 ， 都 有 一 个 相对 应 的 A 使 得 两 个 优化 问题 有 相同 
































的 解 。 然 而 , A 的 值 依赖 于 ro。 基于 此 , ER (5.37) 使 用 一 个 适应 性 的 A 更 合理 




















H 
Eo 














Æ PPO rp, 我 们 



































通过 检验 KL 散 度 的 值 来 决定 A 的 值 应 该 增 大 还 是 减 小 。 这 个 版 本 的 PPO 算法 称 为 PPO-Penalty。 








这 个 版 本 的 实现 如 算法 5.23 所 示 (Heess et al., 2017; Schulman et al., 2017)。 





另 一 个 方法 是 直接 剪断 用 于 策略 梯度 的 目标 函数 ， 从 而 得 到 更 保守 的 更 新 。 

















让 (20) 表示 两 





























个 策略 的 比值 BAAS 。 经 验 表明 ， 下 述 目标 函数 可 以 让 策略 梯度 方法 有 稳定 的 学 习性 能 : 














LIPOIC) = E, [min (6(9) A" (Se, Av), clip(£:(6"),1 — 6,1 + e)A™*(S, 4 — 638 


这 里 clip(z, 1— e, 1+ €) f x RÆ [1— e, 1-- e] 






































。 这 个 版 本 的 算法 被 称 为 PPO-Clip, 如 算法 5.24 





所 示 (Schulman et al., 2017)。 更 具体 ，PPO-Clip 先 将 £,(0^) 截断 在 [1 — e, 1 + e] 中 来 保证 了 和 To 
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5.9 使 用 Kronecker 因子 化 信赖 域 的 Actor-Critic 





算法 5.23 PPO-Penalty 


超 参 数 : 奖励 折扣 因子 y, KL 散 度 惩罚 系数 A， 适 应 性 参数 a = 1.5,b = 2, FIRMA M, B. 
输入 : 初始 策略 函数 参数 09、 初始 价值 函数 参数 o. 
fork = 0,1,2,--- do 
执行 全 步 策略 Tar RAE (55 An Fo. 
估计 优势 函 数 At = Dt t Ry i Val St) o 
Told «— To 
for m € (1,- ME do 
Jppo(g) = xt 1 SCRI, Ay — AÊ, [Dia (roa C152) ]hro C180)] 
使 用 梯度 算法 基于 Jppo(0) 更 新 策略 函数 参数 0。 
end for 
forb € {1,--- , B} do 


2 
LO) = = xa (esit! Ry — ValS) 
使 用 梯度 算法 基于 Lo) 更 新 价值 函数 参数 o- 
end for 
计算 4 = By [Dia (Toull Solto C189))] 
if d < dtarger/a then 
A + Afb 
else if d > dtarget x a then 
Ac—Axb 
end if 
end for 

























































































相似 。 最 后 ， 取 截断 的 目标 函数 和 未 截断 的 目标 函数 中 较 小 的 一 方 作为 学 习 的 最 终 目标 函数 。 所 
以 ，PPO-Clip 可 以 理解 为 在 最 大 化 目标 函数 的 同时 将 从 re 到 00 的 更 新 保持 在 可 控 范 围 内 。 












































5.9 ”使 用 Kronecker 因子 化 信赖 域 的 Actor-Critic 

















使 用 Kronecker 因子 化 信赖 域 的 ActorCritic (Actor Critic using Kronecker-factored Trust Region, 
ACKTR) (Wu et al., 2017) 是 降低 TRPO 计算 负担 的 另 一 个 方法 。ACKTR 的 想法 是 通过 Kronecker 
妹子 近似 曲 度 方法 (Kronecker-Factored Approximated Curvature,K-FAC ) (Grosse et al., 2016; Martens 
et al., 2015) 来 计算 自然 梯度 。 在 这 一 节 中 ， 我 们 介绍 如 何 用 ACKTR 来 学 习 MLP 策略 网 络 。 

注意 到 




















































































































e? 
48~ Dri Lis Dru) (5.45) 
0? 
= —Esn pray 2 Tora als) 5 log ro(als) (5.46) 
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算法 5.24 PPO-Clip 








MER: 截断 因子 e TERRÉ M, B 

输入 : TURRE REA 0. PUAN KE o. 
for k = 0,1,2,- -- do 
在 环境 中 执行 策略 To, 并 保存 轨迹 集 Dy, = {Ti} > 

计算 将 得 到 的 奖励 G,。 

基于 当前 的 价值 函数 Vj, 计算 优势 函数 A, 〈 基 于 任何 优势 函数 的 估计 方法 )。 
for m € {1,--- , M} do 












































































































































, 79 (A1|S1) 
bi(0) = — 5.39 
OS zo ASD) uS 
采用 Adam 随机 梯度 上 升 算法 最 大 化 PPO-Clip 的 目标 函数 来 更 新 策略 : 
0,1 = arg max T 5. 7 » x min(£, (0^) AT9w (S,, At), (5.40) 
clip(£, (0), 1 — e, 1 + e) A"^w (S,, A;)) (5.41) 
end for 
for b € {1,--- , B} do 
采用 梯度 下 降 算 法 最 小 化 均 方 误差 来 学 习 价值 函数 : 
Ọk+1 THERE ule 5 T 5 y (VS) (S,) 一 = 
| | TED, t=0 
end for 
end for 
82 
= —Esnvp,,, | anus 320 log o(a|s) (5.47) 
= i | (Vo log ro(als)) (Vo og o(als)) "| (5.48) 










































































在 TRPO F, dA ti EAS SRA ie, 五 -1g。 在 ACKTR 中 ， 我 们 用 一 个 分 块 





对 角 和 矩阵 来 来 近似 态 ~-1。 和 矩阵 的 每 一 块 对 应 神经 网 络 每 一 层 的 Fisher 信息 和 矩阵。 假设 网 络 的 第 0 
























































FEW tou = Wezin。 这 里 Wi 的 维度 为 dou x dn。 我 们 来 介绍 ACKTR 分 解 的 想法 。 
层 的 梯度 Vw,L 是 (Veron L) 和 Lin 的 外 R (Vae Lys 所 以 





(Yolog ro(als)) (Velogze(a|s)) = aint, @ (Vau D)(Va, L)", 
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注意 到 这 一 


(5.49) 


5.10. 策略 梯度 代码 例子 














这 里 Q 是 Kronecker 乘积 。 进 一 步 











所 以 ， 与 其 对 一 个 (dindout) X (dindoub 的 矩阵 求 逆 ， 从 而 需要 Oldi du) 计算 复杂 度 ，ACKTR 只 


—1 


(vo log no(als)) (Vo log mo (als) ) g (5.50) 

= (vua e Paa N: g (5.51) 
ex —1 

= [(ssez) & ((Va. (Va L)7) E (5.52) 











需要 对 两 个 维度 为 dm x din 和 dout x dou 的 矩阵 求 逆 ， 从 而 计算 复杂 度 只 有 O(d + d3,). 
ACKTR 算法 的 实现 如 算法 5.25 所 示 。ACKTR 算法 也 可 以 被 用 于 学 习 价值 网 络 。 感 兴趣 的 


读者 可 以 参考 论文 (Wu et al., 2017) 了 解 更 多 的 细节 ， 我 们 这 里 不 做 详细 解释 。 





算法 5.25 ACKTR 










































































MBM: 步 长 quas KL-BUSE ER ô- 
KEF D、 初 始 策略 函数 参数 6、 初始 价值 函数 参数 bo 
fork =0,1,2,---. do 


输入 : 空 回 
































在 环境 ， 











执行 策略 m, = n(0,) 





计算 累积 奖励 Gto . 
基于 当前 的 价值 函数 Va, 计算 优势 函数 A, 《基于 任何 优势 函数 的 估计 方法 )。 
估计 策略 梯度 。 


jk = 


for l =0,1,2,--- do 
vec(A01) = vec( Ar "Vo OrS7 `) 

















这 里 A, 一 laaf], Si = ‘| 














^R 














并 保存 轨迹 集 D, = (ri = 0,1,- }o 











工 
1 A 
[Dx| >3 > Vo log ro(A«|St)|o, At (5.42) 


TED, t=0 











(Vsdx)(Vs,9x)!] (Ar, Si 通过 计算 片段 的 滚动 平均 值 所 得 )， 














a, 是 第 | 层 的 输入 激活 向 量 ，s; = Wa), vec(-) 是 把 矩阵 变换 成 一 维 向 量 的 向 量化 变换 。 


end for 


























K-FAC 近似 自然 梯度 来 更 新 





























end for 











策略 : 


Ok+1 = Ox + nAOk (5.43) 


Em Æ Nk = min (Nmax, 4/ an” Hi 一 A; ® Sj. 


过 
采用 Gauss-Newton 二 阶梯 度 下 降 方法 〈 并 使 用 K-FAC 近似 ) 最 小 化 均 方 误差 来 学 习 价 值 函 
数 : 











T 
. 1 2 
Ọk+1 = arg min IT 5 > (Vis(St) — Gt) (5.44) 


TED, t=0 
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5.10 ”策略 梯度 代码 例子 


在 前 几 节 中 ， 我 们 在 理论 角度 介绍 了 几 个 基于 策略 梯度 算法 的 伪 代 码 ， 介 绍 的 内 容 包括 RE- 
INFORCE (初版 策略 梯度 和) Actor-Critic (AC). 同步 优势 ActorCritic(A2C)、 异步 优势 Actor-Critic 
(A3C)、 信 赖 域 策 略 优化 《TRPO)、 近 端 策略 优化 PPO)、 使 用 Kronecker 因子 化 信赖 域 的 Actor 
Critic (ACKTR)。 在 本 节 中 , 我 们 将 提供 以 上 部 分 算法 的 Python 代码 例子 ,例子 中 以 OpenAI Gym 
作为 游戏 环境 。 我 们 会 先 简单 地 介绍 一 下 在 例子 中 用 到 的 环境 ， 之 后 详细 介绍 各 算法 的 实现 。 虽 
然 本 章 中 介绍 的 多 数 算法 都 能 应 用 于 离散 和 连续 的 环境 , 但 在 实现 中 对 于 离散 和 连续 环境 的 处 理 
有 一 些 不 同 。 这 里 我 们 提供 的 例子 只 是 作为 演示 ， 只 能 应 用 在 同一 种 动作 空间 的 特定 环境 中 。 不 
过 读者 可 以 通过 简单 地 修改 就 能 使 代码 应 用 于 不 同 动作 空间 的 其 他 环境 中 。 完 整 代码 在 GitHub 
库 中 6， 例 子 参考 并 改编 自 许多 开源 资料 ， 感 兴趣 的 读者 可 以 参考 各 代码 简介 注释 中 Reference 部 
分 所 提 及 的 内 容 进行 扩展 学 习 。 









































































































































































































































5.10.1 相关 的 Gym 环境 


在 以 下 几 节 中 提供 例子 的 环境 都 基于 OpenAI Gym 环境 。 这 些 环 境 可 以 被 分 为 离散 动作 空间 
的 环境 和 连续 动作 空间 的 环境 。 





























import gym 
env = gym.make(’Pong-V0’) 


print(env.action space) 











上 述 代码 建立 了 一 个 ID 为 Pong-V0 的 环境 ， 并且 打 印 出 了 它 的 动作 空间 。 将 Pong-V0 这 个 ID 1$: 
成 其 他 诸如 CartPole-V1 或 者 Pendulum-V0 的 ID 可 以 建立 相应 的 环境 。 
以 下 几 节 中 的 代码 会 用 到 一 些 开源 库 。 这 里 通过 如 下 代码 引入 它们 。 




































































import numpy as np 
import tensorflow as tf 
import tensorflow_probability as tfp 


import tensorlayer as tl 





离散 动作 空间 环境 : Pong 5 CartPole 














这 里 将 介绍 两 个 OpenAI Gym 中 使 用 离散 动作 空间 的 游戏 : Pong 和 CartPole。 








5 链接 见 读者 服务 
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Pong 











在 Pong 游戏 中 (如 图 5.3 所 示 ), 我 们 控制 绿色 的 板子 上 下 移动 来 弹 球 。 这 里 使 用 了 Pong-V0 
版 本 。 在 这 个 版 本 中 ， 状 态 空间 是 一 个 RGB 图 像 向 量 ， 形 状 为 (210, 160, 3)。 需 要 输入 的 动作 是 
一 个 在 0,1,2,3,4,5 中 的 整数 ， 分 别 对 应 如 下 动作 : 0 空 动作 ，1 开火 ，2 右 ，3 左 , 4 右 十 开火 ， 5 
左 十 开火 。 


























图 53 Pong 


CartPole 


CartPole( 如 图 5.4 所 示 ) 是 一 个 经 典 的 倒立 摆 环 境 。 我 们 通过 控制 小 车 进行 左右 移动 , 来 使 
杆子 保持 直立 。 在 CartPole-V0 环境 中 ， 观 测 空间 是 一 个 4 维 向 量 ， 分 别 表示 小 车 的 速度 、 小 车 
的 位 置 、 杆 子 的 角度 、 杆 子 项 端的 速度 。 需 要 输入 的 动作 是 一 个 为 0 或 者 1 的 整数 ， 分 别 控制 小 
车 左 移 和 右 移 。 








一 






























































图 54 CartPole 





连续 动作 空间 环境 : BipedalWalker-V2 与 Pendulum-V0 








本 节 中 ， 我 们 将 介绍 使 用 连续 动作 空间 的 环境 BipedalWalker-V2 和 Pendulum-V0。 
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BipedalWalker-V2 


BipedalWalker-V2 是 一 个 双 足 机 器 人 仿真 环境 (如 图 5.5 所 示 )。 在 环境 中 ， 我 们 要 控制 机 器 
人 在 相对 平坦 的 地 面 上 行走 ， 并 最 终 到 达 目 的 地 。 其 状态 空间 是 一 个 24 维 向 量 ， 分 别 表示 速度 、 
角度 信息 ， 以 及 前 方 视野 情况 《〈 详 见 表 5.1)。 环 境 的 动作 空间 是 一 个 4 维 的 连续 动作 空间 ， 分 别 
控制 机 器 人 的 2 个 膝 关 节 、2 个 民 关 节 ， 一 共 4 个 关节 进行 旋转 。 






























































图 5.5 BipedalWalker-V2 


表 5.1 BipedalWalker-V2 各 维度 状态 意义 简介 


简介 3 简介 

壳 体 角度 8 1 号 腿 触 地 状态 
壳 体 角速度 9 2 FERTA 
壳 体 z 方向 速度 2 号 性 关节 速度 
壳 体 y 方向 速度 2 SRT SE 
1 SAW SAE 2 SEX WEE 
1 SAW 2 号 腿 触 地 状态 
1 FRATAR 10 位 前 方 雷达 测 距 值 
1 号 膝 关 节 速 度 







































































Pendulum-V0 

Pendulum-V0 也 是 一 个 经 典 的 倒立 摆 环 境 〈 如 图 5.6 所 示 )。 在 环境 中 ， 我 们 需要 控制 杆子 旋 
转 来 让 其 直立 。 环 境 的 状态 空间 是 一 个 3 维 向 量 ， 分 别 代表 cos(0). sin(0) 和 A(0)。 其 中 0 是 杆 
子 和 垂直 向 上 方向 的 角度 。 环 境 的 动作 是 一 维 的 动作 ， 来 控制 杆子 的 旋转 力矩 。 
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图 56 Pendulum-VO 























值得 注意 的 是 ， 该 环境 中 没有 终止 状态 。 这 里 的 意思 是 ， 必 须 人 为 设置 游戏 的 结束 。 在 默认 
情况 下 ， 环 境 的 最 大 运行 步 长 被 限制 为 200 步 。 当 运行 超过 200 步 时 ，step() 函数 返回 的 Done 
变量 将 为 Tue。 由 于 有 这 个 限制 ， 当 我 们 每 个 回合 片段 运行 超过 200 步 时 ， 代 码 逻 辑 会 因为 收 到 
done 信号 而 退出 该 回合 。 通 过 如 下 代码 可 以 移 除 这 个 限 种 

















































































































— 








o 








import gym 
env = gym.make('Pendulum-V8') 





env = env.unwrapped # 解除 最 大 步 长 的 限制 





5.10.2 REINFORCE: Atari Pong 和 CartPole-V0 
Pong 
开始 之 前 ， 我 们 需要 准备 一 下 环境 、 模 型 、 优 化 器 ， 并 初始 化 一 些 之 后 会 用 上 的 变量 














Titi 
o 








env = gym.make("Pong-VQ") # 创建 环境 
observation = env.reset() # 重量 
prev_x = None 

running_reward = None 
reward_sum = 0 


episode_number = 0 
# 准备 收集 数据 
xs, ys, rs = [], (1, O 


epx, epy, epr = [], [], [] 


model = get model([None, D]) # 创建 模型 


train_weights = model.trainable_weights 


optimizer = tf.optimizers.RMSprop(lr-learning rate, decay-decay rate) # @/#@ k z 


165 


第 5 章 策略 梯度 








model.train() # 设置 模型 为 训练 模式 (防止 模型 被 加 上 Dropout) 


start_time = time.time() 


game_number = 0 











在 完成 准备 工作 之 后 ， 就 可 以 运行 主 循环 了 。 首 先 ， 我 们 需要 对 观测 数据 进行 预 处 理 ， 并 将 
处 理 后 的 数据 传递 给 变量 x。 在 将 z“ 喂 ”入 网 络 之 后 ,我们 将 从 网 络 得 到 每 个 动作 的 执行 概率 。 

为 了 简化 难度 ， 在 这 里 只 用 到 了 3 个 动作 : 空 动作 、 上 、 下 。 在 REINFORCE 算法 中 ， 使 用 
了 Softmax 函数 输出 动作 概率 ， 最 后 通过 概率 选择 动作 。 









































































































































while True: 
if render: 


env.render() 


cur x - prepro(observation) 
X = cur x - prev x if prev x is not None else np.zeros(D, dtype-np.float32) 
x - x.reshape(1, D) 


prev x - cur x 


_prob = model (x) 

prob = tf.nn.softmax( prob) 

# 动作 : 1 Bote 2: E3 

action = tl.rein.choice_action_by_probs(prob[0].numpy(), [1, 2, 3]) 
































现在 基于 当前 状态 选 出 了 一 个 动作 。 接 下 来 要 用 该 动作 和 环境 进行 交互 。 环 境 根据 当前 收 到 
的 动作 执行 到 下 一 步 ， 并 返回 观测 数据 、 奖 励 、 结 束 状态 和 额外 信息 (对 应 代码 中 的 变量 _)。 我 
们 将 这 些 数 据 存储 起 来 用 于 之 后 的 更 新 。 


















































observation, reward, done, _ = env.step(action) 


reward_sum += reward 


xs.append(x) # 一 个 片段 内 的 所 有 观测 数据 





ys.append(action - 1) # 一 个 片段 





rs.append(reward) # 一 个 片段 















































WR stepO 返回 的 结束 状态 为 True， 说 明 当 前 片段 结束 。 我 们 可 以 重 置 环 境 并 开始 一 个 
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新 的 片段 。 但 在 那 之 前 ， 我 们 需要 将 刚刚 采集 的 本 片段 的 数据 进行 处 理 ， 之 后 存 入 路 片段 数据 列 























o 





if done: 
episode number += 1 


game number = 0 


epx.extend(xs) 

epy.extend(ys) 

disR - tl.rein.discount episode rewards(rs, gamma) 
disR -- np.mean(disR) 

disR /- np.std(disR) 

epr.extend(disR) 

xs, ys, rs = [], [], [] 


























M 
x 





智能 体 在 进行 了 很 多 局 游戏 ， 并 收集 了 足够 的 数据 之 后 ， 就 可 以 开始 更 新 了 。 我 们 使 用 
焙 损失 和 梯度 下 降 方法 来 计算 各 参数 的 梯度 ， 之 后 将 梯度 应 用 在 相应 的 参数 上 ， 并 结束 更 新 。 
































if episode_number 
print('batch over...... updating parameters...... 1) 
with tf.GradientTape() as tape: 
_prob = model(epx) 


_loss = tl.rein.cross_entropy_reward_loss(_prob, epy, disR) 





grad = tape.gradient(_loss, train_weights) 


optimizer.apply_gradients(zip(grad, train weights)) 


epx, epy, epr = [], [], [] 











以 上 内 容 描 述 了 主要 工作 ， 之 后 的 代码 主要 用 于 显示 训练 相关 数据 ， 以 便 更 好 地 观察 训练 走 
势 。 我 们 可 以 使 用 滑动 平均 来 计算 每 个 片段 的 运行 奖励 ， 以 降低 数据 拌 动 的 程度 , 方便 观察 趋势 。 
最 后 ， 做 完 这 些 内 容 后 别 忘 了 重 置 环境 ， 因 为 此 时 当前 片段 已 经 结束 了 。 






























































# if episode_number 





# tl.files.save npz(network.all params, name-model file name + '.npz') 

running reward = reward sum if running reward is None else running reward * 0.99 
+ reward sum * 0.01 

print('resetting env. episode reward total was {}. running mean: 


{}’ .format(reward_sum, running. reward)) 
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reward_sum = 0 
observation = env.reset() 


prev_x = None 


if reward != 0: 
print( 
(  'episode 
(episode number, game number, time.time() - start time, reward) 
), C?’ if reward == -1 else ' !!!!!1!1!") 
) 
start time - time.time() 


game number += 1 





CartPole 


























这 个 例子 中 ， 算 法 和 Pong 的 一 样 。 我 们 可 以 考虑 将 整个 算法 放 入 一 个 类 中 ， 并 























将 各 部 分 代 


码 写 入 对 应 的 函数 。 这 样 可 以 使 得 代码 更 为 简洁 易 读 。PolicyGradient 类 的 结构 如 下 所 示 : 








class PolicyGradient: 
def __init__(self, state dim, action num, learning rate-0.02, gamma=0.99): 
# 类 初始 化 。 创 建 模型 、 优 化 器 和 需要 的 变量 
def get action(self, s, greedy-False): # 基于 动作 分 布 许 择 动作 
def store transition(self, s, a, r): # 存储 从 环境 中 采样 的 交互 数据 


def learn(self): # 使 用 存储 





据 进 行 学 习 和 更 新 
def _discount_and_norm_rewards(self): # 计算 折扣 化 回报 ; 行 标准 化 处 理 








初始 化 函数 先后 创建 了 一 些 变量 、 模 型 并 选择 Adam 作为 策略 优化 器 。 在 代码 





























看 出 这 里 的 策略 网 络 只 有 一 层 隐藏 层 。 
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5.10 策略 梯度 代码 例子 








def __init__(self, state dim, action num, 


self.gamma - gamma 


self.state buffer, self.action buffer 


learning rate-0.02, gamma=0.99): 


, self.reward buffer = [], [1], [] 


input layer - tl.layers.Input([None, state dim], tf.float32) 


layer = tl.layers.Dense( 


n units-30, act=tf.nn.tanh, W init-tf.random normal initializer(mean-8, 


stddev=0.3), 
b_init=tf.constant_initializer(0.1 
) Cinput_layer) 


all_act = tl.layers.Dense( 


) 


n units-action num, act-None, W init-tf.random normal initializer(mean-6, 


stddev=0.3), 
b_init=tf.constant_initializer(0.1 
) (layer) 


) 


self.model = tl.models.Model(inputs-input layer, outputs-all act) 


self.model.trainQ 


self.optimizer = tf.optimizers.Adam(learning_rate) 








在 初始 化 策略 网 络 之 后 ， 我 们 可 以 通过 get actionO 函数 计算 某 状 态 下 各 动作 的 概率 。 通 
































过 设置 greedy=True"， 可 以 直接 输出 概率 最 高 的 动作 。 


























def get_action(self, s, greedy=False): 
_logits = self.model(np.array([s], np 


. float32)) 


_probs = tf.nn.softmax(_logits) .numpy() 


if greedy: 


return np.argmax(_probs.ravel()) 


return tl.rein.choice_action_by_probs(_probs.ravel()) 








但 此 时 ， 我 们 选择 的 动作 可 能 并 不 好 。 只 有 























通过 不 断 学 习 之 后 ， 网 络 才 能 做 出 越 来 越 好 的 


= 


























断 。 每 次 的 学 习 过 程 由 learnO 函数 完成 ， 这 部 分 函数 的 代码 基本 也 和 Pong 例子 中 一 样 。 我 们 








使 用 标准 化 后 的 折扣 化 奖励 和 交叉 炉 损 失 来 更 新 

















模型 。 在 每 次 更 新 后 , 学 过 的 转移 数据 将 被 丢弃 。 








def learn(self): 


# 计算 标准 化 后 的 折扣 化 奖励 





discounted ep rs norm = self._discount_and_norm_rewards() 
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3 
tA 
B: 





with tf.GradientTape() as tape: 
_logits = self.model(np.vstack(self.ep. obs)) 


neg. log prob = tf.nn.sparse softmax cross entropy with logits(logits- logits, 





labels-np.array(self.ep as)) 


loss = tf.reduce mean(neg. log prob * discounted ep rs norm) 


grad - tape.gradient(loss, self.model.trainable weights) 


self.optimizer.apply. gradients(zip(grad, self.model.trainable weights)) 


self.ep obs, self.ep as, self.ep rs = [], [], O # 清空 片段 数据 


return discounted ep rs norm 









































learnO 函数 需要 使 用 智能 体 与 环境 交互 得 到 的 采样 数据 。 因此 我 们 需要 使 用 store. tran- 


sition() 来 存储 交互 过 程 中 的 每 个 状态 、 动 作 和 奖励 。 


HI 
o 
zt 









































def store transition(self, s, a, r): 
self.ep obs.append(np.array([s], np.float32)) 
self.ep as.append(a) 
self.ep rs.append(r) 


























T 





策略 梯度 算法 使 用 蒙特 卡 罗 方 法 。 因 此 ， 我 们 需要 计算 折扣 化 回报 ， 并 对 回报 进行 标准 化 ， 
也 有 助 于 学 习 。 











def discount and norm rewards(self): 
# 计算 折扣 化 片段 奖励 
discounted_ep_rs = np.zeros_like(self.ep_rs) 
running_add = 0 
for t in reversed(range(0, len(self.ep_rs))): 
running. add = running add * self.gamma + self.ep rs[t] 


discounted ep rs[t] = running. add 





discounted ep rs -- np.mean(discounted ep. rs) 
discounted ep rs /- np.std(discounted ep. rs) 


return discounted ep rs 

















和 Pong 的 代码 一 样 , 我 们 先 准备 好 环境 和 算法 。 在 创建 好 环境 之 后 , 我 们 产生 一 个 名 为 agent 
的 PolicyGradient 类 的 实例 。 

















env = gym.make(ENV_ID) .unwrapped 
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oe SEED) 
tf.random.set seed(RANDOM SEED) 
env.seed(RANDOM SEED) 
agent - PolicyGradient( 

action num-env.action space.n, 

State dim-env.observation space.shape[0], 
) 
tO = time.time() 




















在 训练 模式 中 ， 我 们 使 用 模型 输出 的 动作 来 和 环境 进行 交互 ， 之 后 存储 转移 数据 并 在 每 个 片 
段 更 新 策略 。 为 了 简化 代码 ， 智 能 体 将 在 每 局 结束 时 直接 进行 更 新 。 















































if args.train: 
all_episode_reward = [] 
for Dees in range(TRAIN EPISODES): 
# 重 置 3 


state = env.reset() 





episode_reward = 0 


for step in range(MAX STEPS): # 在 一 个 片段 中 
if RENDER: 


env.render() 





next state, reward, done, info - env.step(action) 





agent.store transition(state, action, reward) 


state = next state 
episode reward += reward 


为 True， 则 跳出 循环 








agent.learn() 


print( 
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Training | Episode: {}/{} 


| Episode Reward: {:.0£} | Running Time: 
{:.4£}’ . format ( 


episode + 1, TRAIN_EPISODES, episode_reward, 
time.time() - t0)) 



































我 们 可 以 在 每 局 游戏 结束 后 的 部 分 增加 一 些 代码 ， 以 便 更 好 地 显示 训练 过 程 。 我 们 显示 每 个 
回合 的 总 奖励 和 通过 滑动 平均 计算 的 运行 奖励 。 之 后 可 以 绘制 运行 奖励 以 便 更 好 地 观察 训练 趋 
势 。 最 后 ， 存 储 训练 好 的 模型 。 















































agent.save() 

plt.plot(all episode reward) 

if not os.path.exists('image'): 
os.makedirs('image') 


plt.savefig(os.path.join('image', 'pg.png')) 
























































如 果 我 们 使 用 测试 模式 ， 则 过 程 更 为 简单 ， 只 需要 载 入 预 训练 的 模型 ， 再 用 它 和 环境 进行 交 
互 即 可 。 








if args.test: 


# 进行 测试 





agent.loadQ) 


for episode in range(TEST EPISODES): 
state = env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): 
env.render() 


state, reward, done, info = 


env.step(agent.get action(state, True)) 
episode reward += reward 


if done: 
break 
print( 
'Testing | Episode: 


(3/13 | Episode Reward: {:.0£} | Running Time: 
{:.4£}’ . format ( 


episode + 1, TEST_EPISODES, episode_reward, 
time.time() - t0)) 
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5.10.3 AC: CartPole-V0 




















Actor-Critic 算法 通过 TD 方法 计算 基准 ， 能 在 每 次 和 环境 交互 后 立刻 更 新 策略 ， 和 MC 非常 
不 同 o 
在 Actor-Critic 算法 中 ， 我 们 建立 了 2 个 类 : Actor 和 Critic， 其 结构 如 下 所 示 。 


135 























class Actor(object): 





def __init__(self, state dim, action num, lr-0.001): # 2 





def learn(self, state, action, td error): # 更 新 模型 


def get action(self, state, greedy-False): 4 通过 概率 分 布 或 者 贪心 方 





def save(self): # FY 





def load(self): # RAY 





class Critic(object): 


def __init__(self, state dim, lr=0.01): # 类 初始 化 。 创 建 模 





def learn(self, state, reward, state_): # 9 9/7 





def save(self): # 存储 训 





def load(self): # AY 


























Actor 类 的 部 分 和 策略 梯度 算法 很 像 。 唯 一 的 区 别 是 learnO 函数 使 用 了 TD 误差 作为 优 
势 估 计 值 进行 更 新 ， 而 不 是 使 用 折扣 化 奖励 。 
























































def learn(self, state, action, td_error): 
with tf.GradientTape() as tape: 
_logits = self.model(np.array([state])) 





_exp_v = tl.rein.cross entropy. reward loss(logits- logits, actions=[action], 
rewards-td error[9]) 


grad - tape.gradient( exp v, self.model.trainable weights) 


self.optimizer.apply gradients(zip(grad, self.model.trainable weights)) 
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return _exp_v 























和 PG 算法 不 同 ，AC 算法 有 一 个 带 有 价值 网 络 的 批判 者 ， 它 能 估计 每 个 状态 的 价值 。 所 以 























它 初始 化 函数 十 分 清晰 ， 只 需要 创建 网 络 和 优化 器 即 可 。 





class Critic(object): 


def | init (self, state dim, lr=0.01): 


input layer - tl.layers.Input([1, state dim], name-'state') 
layer = tl.layers.Dense( 
n units-30, act-tf.nn.relu6, W init-tf.random uniform initializer(80, 9.91), 
name-'hidden' 
) (input. layer) 
layer - tl.layers.Dense(n units-1, act-None, name-'value')(layer) 
self.model = tl.models.Model(inputs-input layer, outputs-layer, name-'" Critic") 


self.model.trainQ 


self.optimizer = tf.optimizers.Adam(lr) 





BUA 














在 初始 化 函数 之 后 ， 我 们 有 了 一 个 价值 网 络 。 下 一 步 就 是 建立 learnO RM. learnO P 
F 务 非常 简单 ， 通 过 公式 6 = R+ 7V(s') 一 V(s) 计算 TD 误差 6， 之 后 将 TD 误差 作为 优势 估 






































计 来 计算 损失 。 





def learn(self, state, reward, state_, done): 


d = 8 if done else 1 
v_ = self.model(np.array([state. ])) 
with tf.GradientTape() as tape: 
v = self.model(np.array([state])) 
# TD error = r + d * lambda * V(newS) - V(S) 
td error = reward + d * LAM * v - v 
loss - tf.square(td error) 
grad - tape.gradient(loss, self.model.trainable weights) 
self.optimizer.apply. gradients(zip(grad, self.model.trainable weights)) 


return td error 





存储 和 载 入 函数 与 往常 一 样 。 我 们 也 可 以 将 网 络 参数 存储 为 .npz 格式 的 文件 。 
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def save(self): # 存储 模型 


if not os.path.exists(os.path.join(’model’, ’ac’)): 


os.makedirs(os.path.join(’model’, 'ac')) 


5.10 策略 梯度 代码 例子 





tl.files.save npz(self.model.trainable weights, name-os.path.join('model', ’ac’ 


'model critic.npz')) 


def load(self): # X X 


tl.files.load and assign npz(name-os.path.join('model', ’ac’, 


'model critic.npz'), network-self.model) 























HI 











训练 循环 的 代码 和 之 前 的 代码 非常 相似 。 唯 一 的 不 同 是 更 新 的 时 机 不 同 。 使 用 TD 误差 的 情 
况 下 ， 我 们 可 以 在 每 步 进行 更 新 。 
































if args.train: 
all_episode_reward = [] 
for episode in range(TRAIN EPISODES): 
# 重 置 环 境 
state = env.reset().astype(np.float32) 


H- 


step = 0 # 片段 9 数 





episode reward = 0 # = 
while True: 
if RENDER: env.render() 
# 选择 动作 并 与 环境 交互 





+- 5 Jj 
action = actor.get_action(state) 


state_new, reward, done, info = env.step(action) 


state_new = state_new.astype(np.float32) 


if done: reward = -20 # reward shaping trick 


episode_reward += reward 





# 在 和 环境 交互 后 ， 
td_error = critic.learn(state, reward, state_new, done) 


actor.learn(state, action, td_error) 


state = state_new 


step += 1 


$ 
| 


反 m 





# 一 直 运 行 ， 直 done 为 True， 
if done or step >= MAX_STEPS: 


break 
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显示 信息 、 绘 图 和 测试 部 分 的 代码 和 策略 梯度 的 代码 一 样 ， 这 里 就 不 再 次 述 了 。 














5.10.4 A3C: BipedalWalker-v2 
























































在 这 里 的 A3C 实现 中 ， 有 个 全 局 的 AC 和 许多 Worker. 4/8 AC 的 功能 是 使 用 Worker 节点 
的 数据 更 新 网 络 。 每 个 Worker 节点 都 有 自己 的 AC 网 络 ， 用 来 和 环境 交互 。Worker 节点 并 
集 的 数据 传 给 全 局 AC， 之 后 从 全 局 AC 获取 最 新 的 网 络 参 数 ， 再 替换 自己 本 地 的 参数 并 接 


采集 数据 。Worker 类 的 结构 如 下 所 示 : 





























AE 







































































Bk Ae K 
ran) 

















class Worker(object): 


def __init__(self, name): # 初始 化 


def work(self, globalAO): # 主要 的 功能 函数 




















如 上 所 说 , 每 个 Worker 节点 都 有 自己 的 行动 者 网 络 和 批判 者 网 络 。 所 以 在 初始 化 函数 ! 
们 通过 实例 化 ACNet 类 来 创建 模型 。 




















x 









































class Worker(object): 
def | init (self, name): 
self.env = gym.make (GAME) 
self.name - name 
self.AC - ACNet(name) 

















workO 函数 是 Worker 类 的 主要 函数 。 它 和 之 前 代码 中 的 主 循环 相似 ， 但 在 更 新 的 地 方 有 
所 不 同 。 和 往常 一 样 ， 这 里 循环 的 主要 内 容 是 从 智能 体 取得 动作 ， 并 与 环境 交互 。 



























































def work(self, globalAC): 
global GLOBAL_RUNNING_R, GLOBAL_EP 
total_step = 1 
buffer s, buffer a, buffer_r = [], OD, [] 


while not COORD.should stop() and GLOBAL EP « MAX GLOBAL EP: 
# EEDA 


s = self.env.reset() 


ep_r=0 


while True: 
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# 在 训练 过 程 中 ， 将 Workerg 可 视 化 


if self.name == ’Worker_9’ and total step 


self.env.render() 





a 
Il 


w 
Il 


self.AC.choose_action(s) 
s_, r, done, _info = self.env.step(a) 


S = S_.astype(’ float32') 





# 将 机 器 


if r == -100: r = -2 





buffer_a.append(a) 


buffer_r.append(r) 





























更 新 后 的 最 新 全 局 网 络 参 数 。 








当 智 能 体 采集 足够 的 数据 时 ， 将 开始 更 新 全 局 网 络 。 在 那 之 后 ， 本 地 网 络 的 参数 将 被 蔡 换 为 





if total_step 





if done: 

v s = 0 # 终止 情况 下 
else: 

v_s_ = self.AC.critic(s [np.newaxis, :])[0,0] # 修正 数据 维度 
# 折扣 化 3 


buffer_v_target = [] 
for r in buffer_r[::-1]: 
v_s_ = r + GAMMA * v_s_ 
buffer v. target.append(v. s. ) 
buffer v. target.reverse() 
buffer s - tf.convert to tensor(np.vstack(buffer s)) 


buffer a - tf.convert to tensor(np.vstack(buffer a)) 


buffer v target = tf.convert. to tensor(np.vstack(buffer. v target).astype('float32')) 
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# 更 新 

self.AC.update global(buffer s, buffer a, buffer_v_target.astype(’ float32’), 
globalAC) 

buffer s, buffer a, buffer r = [], [], [] 


# 同步 本 地 
self.AC.pull. global(globalAC) 





S = S 
total_step += 1 
if done: 
if len(GLOBAL RUNNING R) == 0: # 存 
GLOBAL. RUNNING. R.append(ep. r) 





BT DEEP 


else: # 使 用 滑动 平均 
GLOBAL_RUNNING_R.append(9.95 * GLOBAL RUNNING R[-1] + 0.05 * ep_r) 


print('Training | {}, Episode: {}/{} | Episode Reward: {:.4£} | Running Time: 
(:.4£)]'N 

.format(self.name, GLOBAL EP, MAX GLOBAL EP, ep r, time.time()-TO )) 

GLOBAL EP += 1 

break 











在 上 述 代码 中 用 到 的 ACNet 类 包含 行动 者 和 批判 者 。 它 的 结构 如 下 所 示 : 











class ACNet(object): 





def | init. (self, scope): £ *% 


def update global(self, buffer s, buffer a, buffer v target, globalAC): 


def pull global(self, globalAC): # 本 地 网 络 同步 4 








def get action(self, s, greedy-False): # 本 地 网 络 采 集 
def save(self): # 存储 训练 模型 
def load(self): # 载 入 训练 模型 
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update_global() 函数 是 其 中 最 重要 的 函数 之 一 ， 从 如 下 代码 可 以 看 出 ,使 用 了 采样 数据 来 
计算 梯度 ， 但 是 将 梯度 应 用 到 全 局 网 络 ， 在 那 之 后 ， 再 从 全 局 网 络 更 新 数据 ， 并 继续 循环 。 在 这 
个 模式 下 ， 可 以 异步 更 新 多 个 Worker 节点 。 





tr 




























































































def update_global( 
self, buffer_s, buffer_a, buffer_v_target, globalAC 


bose 


局 AC 网 络 






# 更 新 全 局 批判 者 
with tf.GradientTape() as tape: 
self.v = self.critic(buffer_s) 
self.v_target = buffer_v_target 
td = tf.subtract(self.v target, self.v, name-'TD error') 
self.c loss - tf.reduce mean(tf.square(td)) 
self.c. grads = tape.gradient(self.c loss, self.critic.trainable weights) 
OPT. C.apply. gradients(zip(self.c grads, globalAC.critic.trainable weights)) 
# RAH 用 在 全 局 网 络 上 


BRA Baas 
# RMS ATWA 








with tf.GradientTape() as tape: 
self.mu, self.sigma = self.actor(buffer_s) 
self.test = self.sigma[0] 
self.mu, self.sigma = self.mu * A BOUND[1], self.sigma + 1e-5 


normal dist = tfd.Normal(self.mu, self.sigma) 4 tf2.0 中 没有 tf.contrib 
self.a his - buffer a 


log. prob = normal dist.log prob(self.a his) 





exp v = log prob * td # td 在 critic 用 过 了 了， 这 


entropy = normal_dist.entropyQ) # 3 





self.exp_v = ENTROPY_BETA * entropy + exp_v 
self.a_loss = tf.reduce_mean(-self.exp_v) 
self.a_grads = tape.gradient(self.a_loss, self.actor.trainable_weights) 
OPT_A.apply_gradients(zip(self.a_grads, globalAC.actor.trainable weights)) 
qr 






AERE hy RE 








return self.test # JJ 




















更 新 本 地 网 络 的 函数 非常 简单 ， 只 要 将 本 地 网 络 的 参数 替换 为 全 局 网 络 的 参数 即 可 。 








def pull global(self, globalAC): # 本 地 和 运行， 从 全 
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B 





for l_p, g_p in zip(self.actor.trainable_weights, 
globalAC.actor.trainable weights): 
l p.assign(g. p) 

for l p, g_p in zip(self.critic.trainable weights, 
globalAC.critic.trainable. weights): 
l p.assign(g. p) 

















最 后 ， 准 备 工 作 都 完成 后 ， 在 主 函 数 中 逐一 启动 各 个 线程 即 可 。 






































env = gym.make(GAME) 
N_S = env.observation_space.shape[0] 


N_A = env.action_space.shape[0] 


A_BOUND = [env.action_space.low, env.action_space.high] 
A_BOUND[9] = A_BOUND[0].reshape(1, N_A) 
A_BOUND[1] = A_BOUND[1].reshape(1, N_A) 
with tf.device("/cpu:0"): 
GLOBAL AC = ACNet(GLOBAL NET SCOPE) # i 8 





TO = time.time() 
if args.train: 
with tf.device("/cpu:0"): 
OPT A = tf.optimizers.RMSprop(LR A, name-'RMSPropA') 
OPT C = tf.optimizers.RMSprop(LR C, name-'RMSPropC') 


workers - [] 
for i in range(CN WORKERS): 
i name = "Worker 92i" %i # worker name 


workers.append(Worker(i. name, GLOBAL AC)) 


COORD = tf.train.Coordinator() 

# 启动 TF 线程 

worker_threads = [] 

for worker in workers: 
# t = threading. Thread(target=worker.work) 
job = lambda: worker.work(GLOBAL AC) 
t = threading.Thread(target-job) 


180 


5.10 策略 梯度 代码 例子 





t.start() 
worker threads.append(t) 
COORD. join(worker. threads) 


GLOBAL. AC.save() 

plt.plot(GLOBAL RUNNING. R) 

if not os.path.exists(’ image’): 
os.makedirs(’ image’) 


plt.savefig(os.path.join('image', 'a3c.png')) 





5.10.5 TRPO: Pendulum-V0 


TRPO 以 信赖 域 方法 使 用 在 KL 散 度 约 束 下 的 最 大 更 新 步 长 。 例 子 中 也 使 用 了 通用 优势 估计 
器 〈Generalized Advantage Estimator, GAE)。 我 们 先 看 一 下 GAE_Buffer 如 何 实现 。 

































































class GAE_Buffer: 





def __init__(self, obs dim, act dim, size, gamma=0.99, lam-0.95): # 初始 化 缓存 
def store(self, obs, act, rew, val, logp, mean, log std): # 存储 数据 


def finish path(self, last val-8): # 通过 GAE-Lambda 计算 优势 估计 

















我 们 在 初始 化 函数 中 建立 之 后 要 用 到 的 变量 。 














fiti 








class GAE Buffer: 
def | init. (self, obs dim, act dim, size, gamma=0.99, lam=0.95): 
self.obs buf - np.zeros((size, obs dim), dtype-np.float32) 
self.act buf - np.zeros((size, act dim), dtype-np.float32) 
self.adv buf - np.zeros(size, dtype-np.float32) 
self.rew buf - np.zeros(size, dtype-np.float32) 
self.ret buf - np.zeros(size, dtype-np.float32) 
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self.val buf = np.zeros(size, dtype-np.float32) 
self.logp buf - np.zeros(size, dtype-np.float32) 
self.mean buf - np.zeros(size, dtype-np.float32) 
self.log std buf - np.zeros(size, dtype-np.float32) 
self.gamma, self.lam - gamma, lam 


self.ptr, self.path start idx, self.max size = 0, 0, size 














在 storeO 函数 中 ， 我 们 将 数据 存 入 对 应 的 缓存 中 ， 再 移动 指针 。 











def store(self, obs, act, rew, val, logp, mean, log_std): 
assert self.ptr < self.max size # 确保 有 存储 空间 
self.obs_buf[self.ptr] = obs 
self.act_buf[self.ptr] 
self.rew_buf[self.ptr] 
self.val_buf[self.ptr] = val 


Il 
w 
n 
rt 


I 
H 
[e] 
z 


self.logp buf[self.ptr] - logp 
self.mean buf[self.ptr] - mean 
self.log std buf[self.ptr] - log std 
self.ptr += 1 


























finish pathO 函数 在 每 个 轨迹 的 结尾 或 者 一 个 回合 结束 时 会 被 


=H 








j。 它 提取 当前 轨迹 并 计 

















算 GAE-Lambda 优势 和 价值 函数 会 用 到 的 累积 回报 。 














def finish_path(self, last_val=0): 
path_slice = slice(self.path_start_idx, self.ptr) 
rews = np.append(self.rew_buf[path_slice], last_val) 
vals = np.append(self.val_buf[path_slice], last_val) 
# 下 面 两 行 计算 了 GAE-Lambda 优势 


deltas = rews[:-1] + self.gamma * vals[1:] - vals[:-1] 


self.adv_buf[path_slice] = self. discount cumsum(deltas, self.gamma * self.lam) 





为 价值 目标 


# 下 一 行 计算 了 折扣 化 奖励 ， 它 





self.ret_buf[path_slice] = self._discount_cumsum(rews, self. 


self.path_start_idx = self.ptr 


gamma) [:-1] 























在 之 前 代码 中 用 到 的 _discount_cumsum() 函数 如 下 所 示 。 这 里 使 / 


的 内 建 函 数 来 实现 。 





] J scipy 一 个 开源 库 ) 
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def _discount_cumsum(self, x, discount): 
return scipy.signal.lfilter([1], [1, float(-discount)], x[::-1], axis=0)[::-1] 














is fullO 函数 只 是 简单 确认 一 下 指针 是 否 移动 到 底 。 








def is_full(self): 


return self.ptr == self.max_size 















































当 缓存 满 了 的 时 候 ， 我 们 将 取出 数据 并 重 置 指针 。 这 里 使 用 了 优势 标准 化 技术 。 








def get(self): 


assert self.ptr == self.max size # HŽ 





self.ptr, self.path start idx = 0, 0 





优势 标准 化 技术 

self.adv_buf = (self.adv_buf - adv_mean) / adv_std 

return [self.obs_buf, self.act_buf, self.adv_buf, self.ret_buf, self.logp_buf, 
self.mean_buf, self.log_std_buf] 








接 下 来 我 们 将 介绍 TRP0， 其 结构 如 下 所 示 : 





class TRPO: 


def | init. (self, state dim, action dim, action bound): # 4 





def get action(self, state, greedy-False): 4 获取 动作 和 其 他 变量 





def pi loss(self, states, actions, adv, old log prob): # i| 5 





def gradient(self, states, actions, adv, old log prob): # 计算 1 


值 网 络 





def train vf(self, states, rewards to go): # jl! 


def kl(self, states, old mean, old log std): # 计算 KL WË 





def flat concat(self, xs): # Æ 





def get pi params(self): # 获取 策 
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def 


def 


def 


def 


def 


def 





set pi params(self, flat params): # ij 





save(self): # 存储 网 





load(self): # 载 入 网 络 参 数 





cg(self, Ax, b): # 共 : 





hvp(self, states, old mean, old log std, x): # Hessian 回 量 积 
product) 





全 部 网 络 


update(self): # 3 


finish path(self, done, next state): # 结束 一 段 轨 这 


(Hessian-vector 





个 均值 和 一 个 标准 差 描述 的 高 斯 分 布 。 策 略 网 络 只 输出 了 每 个 动作 维度 的 均值 ， 所 有 动作 共 




















和 往常 一 样 ， 我 们 在 初始 化 函数 中 先 设 置 网 络 、 优 化 器 和 其 他 变量 。 这 里 的 动作 分 布 是 由 

























































































个 变量 来 作为 对 数 标准 差 。 











class TRPO: 
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def 


__init__(self, state dim, action dim, action bound): 
# critic 
with tf.name_scope(’ critic’): 
layer = input_layer = tl.layers.Input([None, state_dim], tf.float32) 
for d in HIDDEN_SIZES: 
layer = tl.layers.Dense(d, tf.nn.relu) (layer) 
v = tl.layers.Dense(1) (layer) 
self.critic = tl.models.Model(input layer, v) 


self.critic.train() 


# actor 
with tf.name scope('actor'): 
layer - input layer - tl.layers.Input([None, state dim], tf.float32) 
for d in HIDDEN SIZES: 
layer - tl.layers.Dense(d, tf.nn.relu)(layer) 
mean = tl.layers.Dense(action dim, tf.nn.tanh) (layer) 
mean = tl.layers.Lambda(lambda x: x * action bound) (mean) 


log std = tf.Variable(np.zeros(action dim, dtype-np.float32)) 


5.10 策略 梯度 代码 例子 





self.actor = tl.models.Model(input layer, mean) 
self.actor.trainable weights.append(log. std) 
self.actor.log. std = log. std 


self.actor.trainQ 


self.buf = GAE Buffer(state dim, action dim, BATCH SIZE, GAMMA, LAM) 
self.critic optimizer - tf.optimizers.Adam(learning rate-VF LR) 


self.action bound - action bound 














有 了 网 络 ， 我 们 就 可 以 通过 如 下 函数 取得 对 应 状态 下 的 动作 。 除 此 之 外 ， 我 们 需要 计算 一 些 
额外 数据 存 入 GAE 缓存 中 。 

















def get_action(self, state, greedy=False): 
state = np.array([state], np.float32) 
mean = self.actor(state) 
log std = tf.convert_to_tensor(self.actor.log_std) 
std = tf.exp(log_std) 
std = tf.ones like(mean) * std 


pi = tfp.distributions.Normal(mean, std) 


if greedy: 
action = mean 
else: 
action = pi.sample() 
action = np.clip(action, -self.action_bound, self.action_bound) 


logp_pi = pi.log_prob(action) 


value = self.critic(state) 


return action[0], value, logp pi, mean, log_std 











如 下 代码 显示 了 如 何 计算 策略 损失 。 我 们 先 计 算 替 代 优势 ， 这 是 一 个 描述 当前 策略 在 之 前 策 
略 采 样 的 数据 中 表现 如 何 的 数据 。 之 后 使 用 负 的 奉 代 优势 作 为 子 策略 损失 。 









































def pi_loss(self, states, actions, adv, old_log_prob): 
mean = self.actor(states) 
pi = tfp.distributions.Normal(mean, tf.exp(self.actor.log_std)) 
log_prob = pi.log_prob(actions)[:, 0] 
ratio = tf.exp(log_prob - old_log_prob) 
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surr = tf.reduce_mean(ratio * adv) 


return -surr 

















通过 调用 之 前 定义 的 pi_lossQ 函数 ， 我 们 可 以 很 简单 地 计算 梯度 。 














def gradient(self, states, actions, adv, old_log_prob): 
pi_params = self.actor.trainable_weights 
with tf.GradientTape() as tape: 
loss - self.pi loss(states, actions, adv, old log. prob) 
grad - tape.gradient(loss, pi params) 
gradient = self. flat concat(grad) 


return gradient, loss 





























训练 价值 网 络 的 方法 如 下 所 示 。 只 要 通过 回归 减少 均 方 差 即 可 拟 合 价值 函数 。 





























def train_vf(self, states, rewards_to_go): 
with tf.GradientTape() as tape: 
value - self.critic(states) 
loss = tf.reduce mean((rewards. to go - value[:, 0]) ** 2) 
grad - tape.gradient(loss, self.critic.trainable weights) 


self.critic optimizer.apply. gradients(zip(grad, self.critic.trainable weights)) 























计算 KL 散 度 的 过 程 如 下 所 示 。 我 们 先 基于 均值 和 标准 差 产生 动作 分 布 ， 然 后 计算 两 个 分 布 
的 KL BUS. 























def kl(self, states, old mean, old log. std): 
old mean - old mean[:, np.newaxis] 
old log.std - old log std[:, np.newaxis] 
old std - tf.exp(old log. std) 
old pi - tfp.distributions.Normal(old mean, old std) 


mean = self.actor(states) 
std = tf.exp(self.actor.log std)*tf.ones like(mean) 


pi = tfp.distributions.Normal(mean, std) 


kl - tfp.distributions.kl divergence(pi, old pi) 
all kls - tf.reduce sum(kl, axis-1) 


return tf.reduce mean(all kls) 
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在 这 个 代码 例子 中 , 许多 参数 都 使 用 _flat_concat() 函数 展 平 , 这 样 














能 简化 很 多 计算 过 程 


Eo 





def _flat_concat(self, xs): 





return tf.concat([tf.reshape(x, (-1,)) for x in xs], axis-0) 





如 下 的 get. pi paramsO 和 set_pi_params() K 7X 
获取 和 设置 参数 的 过 程 中 需要 进行 一 些 简 单 的 处 型 






























































于 获得 和 设置 行动 者 网 络 的 参数 。 在 


bal ZZ 














IF 


o 


def get. pi params(self): 





pi params = self.actor.trainable weights 


return self. flat concat(pi. params) 


def set pi params(self, flat params): 
pi params - 


self.actor.trainable weights 


flat size = lambda p: int(np.prod(p.shape.as list())) # the 


'int' is important 
for scalars 
splits - tf.split(flat params, 


[flat size(p) for p in pi. params]) 
new params = [tf.reshape(p new, p.shape) for p, p new in zip(pi params, splits)] 


return tf.group([p.assign(p. new) for p, p. new in zip(pi params, new params)]) 





存储 和 载 入 函数 和 之 前 一 样 。 


def save(self): 





path = os.path.join(’model’, 'trpo') 
if not os.path.exists(path): 


os.makedirs (path) 


tl.files.save_weights_to_hdf5(os.path.join(path, 'actor.hdf5'), self.actor) 
tl.files.save weights. to hdf5(os.path.join(path, 'critic.hdf5'), self.critic) 
def load(self): 


path = os.path.join(’model’, 'trpo') 
tl.files.load hdf5. to weights in order(os.path.join(path, ’actor.hdf5’), 
self.actor) 








tl.files.load hdf5. to weights. in order(os.path.join(path, 










































































'critic.hdf5'), 
self.critic) 
d PAAR SEL ANY EACUS ETE? (EK BR cn] Dod ETE A FF fI RB POE EL BR 
算 矩 阵 向 量 积 。 
7 链接 见 读者 服务 
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def cg(self, Ax, b): 
x = np.zeros_like(b) 
r = copy.deepcopy (b) # ; 
# 动 可 以 进行 4 


是 ?b - Ax(x)’, (2 x=0 Hj, Ax(x)=0. wR? 





p = copy.deepcopy (r) 
r_dot_old = np.dot(r, r) 
for _ in range(CG_ITERS): 
z = Ax(p) 
alpha = r_dot_old / (np.dot(p, z) + EPS) 
x += alpha * p 
r -= alpha * z 
r_dot_new = np.dot(r, r) 


p = r + (r dot new / r_dot_old) * p 





r_dot_old = r_dot_new 





return x 











如 下 代码 显示 J 通过 使 用 公式 Hz = Vo ((VoDicx(6l\6))” x) 计算 Hessian 向 量 积 的 过 程 。 
这 里 使 用 阻尼 系数 来 改变 计算 Hae 一 (aoT 二 五 )z 的 过 程 ， 可 以 获得 更 好 的 数值 稳定 性 。 















































def hvp(self, states, old_mean, old_log_std, x): 
pi_params = self.actor.trainable_weights 
with tf.GradientTape() as tapel: 
with tf.GradientTape() as tapeQ: 
d kl = self.kl(states, old mean, old log. std) 


g self. flat concat(tapeO80.gradient(d kl, pi params)) 
1 = tf.reduce sum(g * x) 


hvp = self. flat concat(tapel.gradient(l, pi. params)) 


if DAMPING COEFF » 6: 
hvp += DAMPING COEFF * x 


return hvp 









































有 了 如 上 准备 ,我们 最 后 可 以 开始 更 新 了 。 首 先 , 通过 GAE 采集 数据 并 计算 梯度 和 损失 。 接 
着 我 们 使 用 共 轮 梯度 算法 来 计算 变量 z， 它 对 应 公式 d ee Ay ge 中 的 次。 然后 ， 我 们 计算 公 
R Oeri = Op +) (HAE ay 中 的 [L2 部 分 。 之 后 ， 我 们 使 用 回 湖 线 搜索 来 更 新 策略 网 
络 。 最 后 ， 通 过 MES 损失 更 新 价值 网 络 。 






































































































































def update(self): 


188 


5.10 策略 梯度 代码 例子 





states, actions, adv, rewards. to. go, logp old ph, old mu, old log.std = 
self.buf.getO 
g, pi l old = self.gradient(states, actions, adv, logp old ph) 





Hx = lambda x: self.hvp(states, old mu, old log. std, x) 
x - self.cg(Hx, g) 


alpha = np.sqrt(2 * DELTA / (np.dot(x, Hx(x)) + EPS)) 


old params = self.get pi. params() 


def set and eval(step): 
params - old params - alpha * x * step 
self.set pi params(params) 
d kl - self.kl(states, old mu, old log. std) 
loss - self.pi loss(states, actions, adv, logp old ph) 


| 


return [d_kl, loss] 





# ERR, He KL 限制 

for j in range(BACKTRACK ITERS): 
kl, pi l new - set. and eval(step-BACKTRACK COEFF ** j) 
if kl <= DELTA and pi l new <= pi l old: 


中 更 新 的 新 











set and eval(step-0.) 





# 价值 网 络 
for _ in range(TRAIN V ITERS): 


self.train vf(states, rewards. to. go) 



































这 里 在 轨迹 要 被 切断 或 者 回合 结束 的 时 候 ， 也 会 需要 使 用 finish pathO 函数 。 如 果 轨 迹 
由 于 智能 体 到 达 终 止 状态 而 结束 ， 那 么 最 后 的 价值 将 被 设置 为 0。 


pri 






















































































def finish_path(self, done, next_state): 
if not done: 
next_state = np.array([next_state], np.float32) 


last_val = self.critic(next_state) 
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else: 
last_val = 0 
self.buf.finish_path(last_val) 
































np 


] 上 的 变量 。 








s 


s BRE AA — #2 Je Th 











代码 的 主 循环 如 下 所 示 。 我 们 先 创建 环 




















env = gym.make(ENV ID).unwrapped 





# 设置 随机 种 子 以 现 效果 
np.random.seed(RANDOM SEED) 
tf.random.set seed(RANDOM SEED) 
env.seed(RANDOM SEED) 


state dim = env.observation_space.shape[0] 
action dim = env.action_space.shape[0] 


action. bound = env.action. space.high 


agent - TRPO(state dim, action dim, action bound) 


tO = time.time() 





X 














在 训练 模式 下 ， 我 们 将 智能 体 与 环境 产生 的 交互 数据 存 入 缓存 ， 当 缓存 满 了 的 时 候 则 进行 一 











if args.train: # train 
all_episode_reward = [] 
for episode in range(TRAIN EPISODES): 
state = env.reset() 
state - np.array(state, np.float32) 
episode. reward = 0 
for step in range(MAX STEPS): 
if RENDER: 
env.render() 
action, value, logp, mean, log std - agent.get action(state) 
next state, reward, done, _ = env.step(action) 
next state - np.array(next state, np.float32) 
agent.buf.store(state, action, reward, value, logp, mean, log std) 
episode reward += reward 
State - next state 
if agent.buf.is fullO: 
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agent.finish_path(done, next_state) 
agent .update() 
if done: 
break 
agent.finish_path(done, next_state) 
if episode == Q: 
all. episode reward.append(episode. reward) 
else: 
all episode reward.append(all episode reward[-1] * 0.9 + episode reward * 
0.1) 
print( 
'Training | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{:.4£}’ . format ( 
episode+1, TRAIN_EPISODES, episode_reward, 
time.time() - t9 


) 
if episode 
agent.save() 


agent.save() 





接着 我 们 可 以 增加 一 些 绘图 的 代码 ， 以 便于 观察 训练 过 程 。 








plt.plot(all episode reward) 
if not os.path.exists('image'): 
os.makedirs(’ image’) 


plt.savefig(os.path.join('image', 'trpo.png')) 





u 


当 训练 完成 后 ， 我 们 可 以 开始 测试 。 











if args.test: 

# test 

agent .load() 

for episode in range(TEST. EPISODES): 
state - env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): 

env.render() 


action, *  - agent.get action(state, greedy-True) 
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state, reward, done, info = env.step(action) 

episode_reward += reward 

if done: 
break 

print( 

'Testing | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{:.4£}’ . format ( 
episode + 1, TEST_EPISODES, episode_reward, 
time.time() - t0)) 





5.10.6 


PPO: Pendulum-V0 








PPO 是 一 种 一 阶 方法 ， 与 TRPO 这 样 的 二 阶 算法 不 同 。 



















































































在 PPO-Penalty 中 ， 是 通过 给 目标 函数 增加 一 个 KL 散 度 惩 罚 项 的 ， 以 解决 像 TRPO 这 样 带 
KL 约束 的 更 新 问题 。PPO 类 的 结构 如 下 所 示 : 
class PPO(object): 

def __init__(self, state dim, action dim, action bound, method=’clip’): # 初始 化 

def train actor(self, state, action, adv, old pi): # 行动 者 训练 函数 

def train critic(self, reward, state): £ 批判 者 训练 函数 

def update(self): # + € 9E 

def get action(self, s, greedy-False): # 选择 动作 

def save(self): # 存储 网 络 

def load(self): # 载 入 网 络 

def store_transition(self, state, action, reward): # 存 J 奖 

def finish path(self, next state): 4 计 和 

在 PPO 算法 中 , 我 们 在 初始 化 函数 中 建立 行动 者 网 络 和 批判 者 网 络 。PPO 有 两 种 方法 : PPO- 
Penalty 和 PPO-Clip。 我 们 在 选用 不 同 的 方法 时 ， 要 设置 其 相对 应 的 参数 。 由 于 环境 是 一 个 连续 运 
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动 控制 环境 ， 我 们 可 以 使 用 随机 策略 网 络 输出 均值 和 对 数 标 准 差 来 描述 动作 分 布 。 另 外 ， 我 们 在 
网 络 输出 加 了 一 个 lambda 层 将 均值 乘 以 2， 这 是 由 于 "Pendulum-V0' 环境 中 的 动作 范围 是 [—2, 2]. 
































i 

















ut 

















class PPO(object): 
def | init (self, state dim, action dim, action bound, method-'clip'): 

# Critic 

with tf.name scope('critic'): 
inputs = tl.layers.Input([None, state dim], tf.float32, ’state’) 
layer - tl.layers.Dense(64, tf.nn.relu)(inputs) 
layer - tl.layers.Dense(64, tf.nn.relu)(layer) 
v = tl.layers.Dense(1) (layer) 

self.critic - tl.models.Model(inputs, v) 


self.critic.train() 


# Actor 
with tf.name scope('actor'): 
inputs = tl.layers.Input([None, state dim], tf.float32, ’state’) 
layer - tl.layers.Dense(64, tf.nn.relu)(inputs) 
layer - tl.layers.Dense(64, tf.nn.relu)(layer) 
a - tl.layers.Dense(action dim, tf.nn.tanh)(layer) 
mean = tl.layers.Lambda(lambda x: x * action bound, name=’ lambda’) (a) 
logstd - tf.Variable(np.zeros(action dim, dtype-np.float32)) 
self.actor - tl.models.Model(inputs, mean) 
self.actor.trainable weights.append(logstd) 
self.actor.logstd - logstd 
self.actor.trainQ 
self.actor opt = tf.optimizers.Adam(LR A) 
self.critic opt - tf.optimizers.Adam(LR C) 


self.method - method 

if method -- 'penalty': 
self.kl target - KL TARGET 
self.lam - LAM 

elif method -- 'clip': 
self.epsilon - EPSILON 


self.state buffer, self.action buffer - [], [] 


self.reward buffer, self.cumulative reward buffer - [], [] 
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self.action_bound = action_bound 















































train_actor() 函数 负责 使 用 PPO 方法 更 新 行动 者 。PPO 使 用 特定 的 目标 函数 来 防止 新 策 
略 远 离 旧 策略 。 

















def train_actor(self, state, action, adv, old_pi): 
with tf.GradientTape() as tape: 
mean, std - self.actor(state), tf.exp(self.actor.logstd) 


pi = tfp.distributions.Normal(mean, std) 


ratio = tf.exp(pi.log prob(action) - old pi.log prob(action)) 
surr - ratio * adv 


if self.method -- 'penalty': £ ppo penalty 

kl = tfp.distributions.kl divergence(old pi, pi) 

kl mean - tf.reduce mean(kl) 

aloss = -(tf.reduce mean(surr - self.lam * kl)) 
else: £ ppo clip 

aloss = -tf.reduce_mean( 

tf.minimum(surr, 
tf.clip by value(ratio, 1. - self.epsilon, 1. + self.epsilon) 
* adv) 
) 
a gard - tape.gradient(aloss, self.actor.trainable weights) 


self.actor. opt.apply. gradients(zip(a gard, self.actor.trainable weights)) 


if self.method -- 'kl pen': 


return kl mean 











train critic 函数 负责 对 批判 者 进行 更 新 ， 代 码 如 下 所 示 。 过 程 就 是 计算 优势 并 最 小 化 
损失 ,42 。 











def train_critic(self, reward, state): 
reward = np.array(reward, dtype-np.float32) 
with tf.GradientTape() as tape: 
advantage - reward - self.critic(state) 
loss - tf.reduce mean(tf.square(advantage)) 
grad - tape.gradient(loss, self.critic.trainable weights) 


self.critic opt.apply. gradients(zip(grad, self.critic.trainable weights)) 
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在 update() 函数 中 ,我 们 先 计算 旧 策 略 的 分 布 ,之 后 ] 


























进行 更 新 。 如果 





方法 ， 则 我 们 还 需要 在 更 新 行动 者 之 后 ， 根 据 KL 散 度 来 更 新 lambda 值 。 


























我 们 使 用 PPO-Penalty 





def update(self): 
S = np.array(self.state buffer, np.float32) 
a - np.array(self.action buffer, np.float32) 


r - np.array(self.cumulative reward buffer, np.float32) 


mean, std - self.actor(s), tf.exp(self.actor.logstd) 


pi = tfp.distributions.Normal(mean, std) 


adv = r - self.critic(s) 


# update actor 
if self.method -- 'kl pen': 
for _ in range(A UPDATE STEPS): 
kl - self.a train(s, a, adv, pi) 
if kl « self.kl target / 1.5: 


self.lam /- 2 
elif kl » self.kl target * 1.5: 
self.lam *- 2 


else: 
for _ in range(A UPDATE STEPS): 


self.a train(s, a, adv, pi) 


# update critic 
for _ in range(C UPDATE STEPS): 


self.c train(r, s) 


self.state buffer.clear() 
self.action buffer.clear() 
self.cumulative reward buffer.clear() 


self.reward buffer.clear() 









































get actionO 函数 就 是 简单 地 使 用 均值 和 标准 差 来 描述 动作 分 布 ， 


















































果 我 们 想 要 一 个 没有 探索 的 动作 ， 就 只 需要 输出 均值 即 可 。 

















并且 从 中 采样 动作 。 如 





def get_action(self, s, greedy=False): 
state = state[np.newaxis, :].astype(np.float32) 


mean, std = self.actor(state), tf.exp(self.actor.logstd) 


if greedy: 
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$53 策略 梯度 
action = mean[0] 
else: 


pi = tfp.distributions.Normal(mean, std) 


action = tf.squeeze(pi.sample(1), axis=0) [0] 


return np.clip(action, -self.action_bound, self.action_bound) 























save(), loadO. store_transition() 函数 和 之 前 的 代码 类 似 ， 这 里 不 做 展 玫 


pathO 函数 负责 在 游戏 结束 或 者 采集 好 了 一 批 数 据 的 时 候 计算 累计 奖 








励 。 





Fo finish. 





def finish path(self, next state, done): 


if done: 
vs =0 


else: 


v_s_ = self.critic(np.array([next state], np.float32))[0, 0] 


discounted_r = [] 

for r in self.reward buffer[::- 
v.s = r + GAMMA * vs. 
discounted_r.append(v_s_) 


discounted_r.reverse() 


1]: 


discounted_r = np.array(discounted_r)[:, np.newaxis] 


self.cumulative_reward_buffer.extend(discounted_r) 


self.reward buffer.clear() 





Y 


L 








函数 也 和 之 前 的 十 分 相似 。 首 先 建 


y 


YY 


环境 和 PPO 








env 


= gym.make(ENV_ID) . unwrapped 





np.random.seed(RANDOM SEED) 
tf.random.set seed(RANDOM SEED) 


State dim = env.observation_space.shape[0] 


action dim = env.action_space.shape[0] 


action. bound = env.action_space.high 


agent - PPO(state dim, action dim, action bound) 


tO = time.time() 
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5.10 策略 梯度 代码 例子 
































接着 使 用 智能 体 和 环境 进行 交互 ， 并 存储 数据 。 在 游戏 结 
finish pathO 函数 计算 累计 奖励 。 在 采集 好 一 批 数据 时 更 新 
后 ， 智 能 体 就 能 取得 很 好 的 分 数 了 。 














mE 7H 




















w 


KS ES SH, SAAT 

















am» 
on 


体 。 在 经 历 过 很 多 次 学 习 之 





if args.train: 
all_episode_reward = [] 
for episode in range(TRAIN EPISODES): 
state - env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): # 在 单个 片段 中 
if RENDER: 
env.render() 
action - agent.get action(state) 
state , reward, done, info - env.step(action) 
agent.store transition(state, action, reward) 
state = state. 


episode reward += reward 


# 更 新 PPO 
if len(agent.state buffer) >= BATCH SIZE: 
agent.finish path(state , done) 
agent.update() 
if done: 
break 
agent.finish path(state , done) 


print( 


'Training | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 


{:.4£}’ . format ( 


episode + 1, TRAIN_EPISODES, episode_reward, time.time() - t0) 


) 
if episode == 0: 
all episode reward.append(episode. reward) 


else: 


all episode reward.append(all episode reward[-1] * 0.9 + episode reward * 


0.1) 


agent.save() 


plt.plot(all episode reward) 
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if not os.path.exists('image'): 
os.makedirs('image') 


plt.savefig(os.path.join('image', 'ppo.png')) 





最 后 ， 像 往常 一 样 测试 智能 体 。 














if args.test: 
agent.loadQ) 
for episode in range(TEST EPISODES): 
state = env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): 
env.render() 
State, reward, done, info - env.step(agent.get action(state, greedy-True)) 
episode reward += reward 
if done: 
break 
print( 
'Testing | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{:.4£}’ . format ( 
episode + 1, TEST_EPISODES, episode_reward, 
time.time() - t0)) 
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NE Q 网 络 和 Actor-Critic 


的 结合 








深度 Q 网 络 (Deep Q-Network, DQN) 算法 是 最 著名 的 深度 强化 学 习 算法 之 一 ， 将 强化 学 
习 与 深度 神经 网 络 相 结合 以 近似 最 优 动 作价 值 函数 ， 只 需 以 像素 值 作为 输入 就 在 绝 大 部 分 Atari 
游戏 中 达到 了 人 类 水 平 的 表现 。ActorCritic 方法 将 REINFORCE 算法 的 蒙特 卡 罗 更 新 方式 转化 


为 时 间 差 分 更 新 方式 ， 大 幅度 提高 了 采样 效率 。 近 年 来 ， 将 深度 Q 网 络 算法 与 ActorCritic 方法 
0 深度 确定 性 策略 梯度 (Deep Deterministic Policy Gradient, DDPG) $ 





相 结合 的 算法 愈加 流行 ， 包 




































































法 。 这 些 算 法 结合 了 深度 Q 网 络 和 Actor-Critic 方法 的 优点 ， 在 大 多 数 环境 特别 是 连续 动作 空 











间 的 环境 ， 








表现 出 优越 的 怕 














能 。 本 章 先 简要 介绍 各 类 方法 的 优 缺 点 ， 然 后 介绍 一 些 将 深度 Q 网 


























络 和 Actor-Critic 方法 相 结合 的 经 典 算 法 ， 如 DDPG 算法 、 挛 生 延 迟 DDPG (Twin Delayed Deep 
Deterministic Policy Gradient, TD3) 算法 和 柔性 Actor-Critic (Soft Actor-Critic SAC) 算法 。 


6.1 


深度 Q 网 络 (Deep Q-Network, DQN) (Mnih et al., 2015) 算法 是 一 种 经 典 的 离线 策略 方法 。 
它 将 Q-Learning 算法 与 深度 神经 网 络 相 结合 ， 实 现 了 从 视觉 输入 到 决策 输出 的 端 到 端 学 习 。 该 
算法 仅 使 用 Atari 游戏 的 原始 像素 作为 输入 ， 便 在 几 十 款 游 戏 中 取得 了 人 类 水 平 级 的 表现 。 然 而 ， 
入 可 以 是 高 维 的 状态 空间 , 但 是 它 只 能 处 理 离 散 的 、 低 维 的 动作 空间 。 对 于 








虽然 深度 Q 网 络 的 输 


^ 
简介 

































































连续 的 、 高 维 的 动作 空间 ， 








Actor-Critic (AC) (Sutton et al., 2018) 方法 是 REINFORCE (Sutton et al., 2018) 算法 的 扩展 。 通 
过 引入 Critic， 该 方法 将 策略 梯度 算法 的 蒙特 卡 罗 更 新 转化 为 时 间 差 分 更 新 。 通 过 这 种 方式 ， 自 
举 法 〈Bootstrapping) 可 以 灵活 地 运用 到 值 估计 和 当 : 
































之 后 再 
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深度 Q 网 络 无 法 直接 计算 出 每 个 动作 对 应 的 Q 值 。 






























































忆 此 策略 的 更 新 不 需要 等 得 到 完整 的 轨迹 






























































进行 ， 即 不 需要 等 到 每 局 游戏 结束 。 虽 然 时 间 差 分 更 新 会 引入 一 些 估计 偏差 . 但 它 可 以 减 





6.2 深度 确 


定性 策略 梯度 算法 





少 估计 方差 从 而 加 快 学 习 速 度 。 尽 管 如 此 ， 原 始 的 Actor-Critic 方法 仍然 是 一 种 在 线 策略 的 算法 ， 
而 在 线 策略 方法 的 采样 效率 远 低 了 
将 深度 Q 网 络 与 Actor-Critic 相 
在 ，Actor-Critic 方法 转化 为 离线 策略 方法 ， 可 
回放 缓存 中 随机 采样 也 可 以 打 舌 
使 价值 函数 的 学 习 更 加 稳定 。ActorCritic 方法 使 得 我 们 可 以 通过 
或 连续 动作 空间 的 问题 ( 表 6.1)。 


FË 


深度 Q 网 络 很 难 解决 的 








ERLE. M 























结合 可 以 同 





离线 策略 方法 。 
时 利用 这 两 种 算法 的 优点 。 














以 使 用 
[数据 的 序列 关系 ， 最 小 化 样本 之 
网 络 学 习 策 























LAY ted 




















算法 


在 线 策略 /离线 策略 


回放 缓存 的 相 
































本 对 网 络 进 





























表 6.1 深度 Q 网 络 算法 与 Actor-Critic 算法 的 特点 


各 函数 Ts 便 于 处 理 





于 深度 Q 网 络 的 存 


行 训练 ， 从 而 提高 
闻 的 相关 性 ， 从 而 



































动作 空间 





深度 Q 网 络 


离线 策略 


离散 





Actor-Critic 


在 线 策略 





连续 








深度 Q 网 络 +Actor-Critic 





0.2 


深度 确定 性 策略 梯度 





离线 策略 


算法 








离散 和 连续 

















深度 确 














算法 (Silver et al., 2014) 和 深度 让 
中 的 扩展 。 它 可 以 解决 深度 Q 网 络 算法 无 法 直接 应 | 
建立 QRZ (Critic) 和 策略 函数 (Actor)。Q (AMA (Critic) 与 深度 Q 网 络 算 
更 新 。 策 略 函 数 CActor) 利用 Q ERZ (Critic) 的 估计 ， 通 过 








梯度 算法 同时 









































策略 梯度 方法 进行 更 新 。 
在 深度 确定 性 策 
示 为 0”7。 每 个 动作 直接 


























法 相同 ， 通 过 时 间 差 分 方法 进行 





定性 策略 梯度 算法 可 以 看 作 是 确 
经 网 络 的 结合 ， 





























定性 




















略 梯度 算法 中 ，Actor 是 























这 里 ， 





















































个 确 





个 关键 问题 是 如 何平 衡 这 种 确定 性 策略 的 探索 和 利用 





定性 策略 函数 ， 表 示 为 x(s)， 待 学 习 参数 
ba 





























采样 。 





























生 策略 梯度 (Deterministic Policy Gradient, DPG) 
也 可 以 看 作 是 深度 Q 网 络 算法 在 连续 动作 空间 
于 连续 动作 空间 的 问题 。 





深度 确定 性 策略 





| 


ya 


(Exploration and Exploitation ). 





深度 确定 性 策略 梯度 算法 通过 在 训练 过 程 中 添加 随机 噪声 解决 该 问题 。 每 个 输出 动作 添加 噪声 


N， 此 时 
et al., 1930) 中 使 


N 



































O-U 过 程 满足 以 下 随机 微分 方程 ; 



































UR UL T TERI 





t 














有 动作 为 Ar = n(S07) + Neo 
EH] Ornstein-Uhlenbeck 过 程 (O-U WE) 添加 噪声 项 。 











Hr 

















N 可 以 根据 























dX, = (n a Xj)dt 十 odWi, 











lL 体 任务 进行 选择 ， 原 论文 (Uhlenbeck 


(6.1) 


其 中 Xi 是 随机 变量 ，0 > 0, x,o > 0 为 参数 。Wi 是 维 纳 过 程 或 称 布朗 运动 (It et al., 1965), 
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。 入 是 独立 增 量 过 程 ,表示 对 于 时 间 轧 < Ty < … < Th, 有 随机 变量 Wr, Wr, Wm, ,Wi 一 

Wr, 都 是 独立 的 。 

。 对 于 任意 时 刻 t 和 增 量 At, A W(t+ AQ — W(t) ~ N(0,o2, At). 

e W, 是 关于 上 的 连续 函数 。 

我 们 知道 马尔 可 夫 决 策 过 程 是 基于 马尔 可 夫 性 质 的 ,满足 p(Xtri| Xo Xa) = p(X X) 
其 中 Xi 是 t 时 刻 的 随机 变量 ， 这 意味 着 随机 变量 Xi 的 时 间 相 关 性 只 取决 于 上 一 个 时 刻 的 随机 
变量 Xi M O-U 噪声 就 是 一 个 具有 时 间 相 关 性 的 随机 变量 ， 这 一 点 与 杞 尔 可 夫 决 策 过 程 的 性 
质 相 符 ， 因 此 很 自然 地 被 运用 到 随机 噪声 的 添加 中 。 然 而 ， 实 践 表 明 ， 时 间 不 相关 的 零 均 值 高 斯 
噪声 也 能 取得 很 好 的 效果 。 

回 到 深度 确定 性 策略 梯度 算法 ， 动 作价 值 函数 O(s, al) 和 深度 Q 网 络 算法 一 样 ， 通 过 贝尔 
FE (Bellman Equations) 进行 更 新 。 
在 状态 S, 下 ， 通 过 策略 r 执行 动作 Ay = (S467)， 得 到 下 一 个 状态 So 和 奖励 值 Ry R 
们 有 : 
















































































































































































































































































Q7 (St, At) = Elr(St, At) + YQ" (Se T(St+1))]- (6.2) 
然后 计算 Q 值 : 
Y; = Ri + YQ" (Sis, 4(Se41))- (6.3) 
使 用 梯度 下 降 算法 最 小 化 损失 函数 : 
L= Z Y (0 - QU A409)y. (6.4) 


1 
























































通过 将 链 式 法 则 应 用 于 期 望 回报 函数 J 来 更 新 策略 函数 r XE, J = ER, se Ais [Ru] 
CE RRI), Re = TL, VO r (Si, Aj). RNA: 
























































Vor J Es, ~pe [Vor Q(s, a|09)|. 5, a=0(5;|67)]> es 
=S ~p? [VaQ(s, a|8*)|.—s, a=1(3:)V 0, 7(8|9") |s=s, |. 
通过 批量 样本 (Batches) 的 方式 更 新 : 
1 
Vord & P. 2 VaQ(s,a|09)]...5, 4. (s; V07 (s|0")|s,. (6.6) 
此 外 ， 深 度 确 定性 策略 梯度 算法 采用 了 类 似 深度 Q 网 络 算法 的 目标 网 络 , 但 这 里 通过 指数 平 
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滑 方法 而 不 是 直接 替换 参数 来 更 新 目标 网 络 : 





(6.7) 
(0.8) 


















































算法 伪 代 码 详 见 算法 6.26. 


算法 6.26 DDPG 


于 参数 p < 1， 目 标 网 络 的 更 新 缓慢 且 平 稳 ， 这 种 方式 提高 了 学 习 的 稳定 性 。 














超 参 数 : 软 更 新 因子 p， 奖 励 折 扣 因 子 yo 





输入 : 回放 缓存 D， 初 始 化 critic 网 络 Q(s, a|09) 参数 02. actor 网 络 x(s|9") 参数 9"、 目 标 网 





络 Q's T. 

初始 化 H 标 网 络 参数 Q' fü a^, WME 09" — 62,07 — 97, 

for episode — 1, M do 
初始 化 随机 过 程 N 用 于 给 动作 添加 探索 。 
































接收 初始 状态 Sy 
fort = 1, T do 


选择 动作 A, = n(5:07) 十 Nt。 
执行 动作 A 得 到 奖励 RR:， 转 移 到 下 一 状态 Suae 
存储 状态 转移 数据 对 (Se, At, Re, Di, Si41) 到 卫 。 
4 Y; = Ri + Y0 — DQ)Q'(Sca T (St41|67 ))09 ) 
通过 最 小 化 损 失 函 数 更 新 Critic 网 络 : 
L= Xy (V%i - Q(Si, Ail0®°))? 
通过 策略 梯度 的 方式 更 新 Actor 网 络 : 
Voed © BY; VaQ(s, al£9)Ls—s, aes) Vor (185, 
更 新 目标 网 络 : 
0% 4 p02 + (1 — p)09" 
OT «— pf" +(1— pe” 
end for 
end for 















































6.3 ” 李 生 延迟 DDPG 算法 





挛 生 延 迟 DDPG (Twin Delayed Deep Deterministic Policy Gradient, TD3) 算法 是 深度 确定 性 


























策略 梯度 算法 的 改进 ， 其 中 运用 了 三 个 关键 技术 : 








(1) 截断 的 Double Q-Learning: 通过 学 习 两 个 Q@ 值 函数 ， 用 类 似 Double Q-Learning 的 方式 更 新 

















critic 网 络 。 









































(2) 延迟 策略 更 新 : 更 新 过 程 中 ， 策 略 网 络 的 更 新 频率 低 于 Q 值 网 络 。 











(3) 目标 策略 平滑 : 在 目标 策略 的 输出 动作 中 加 入 噪声 ， 以 此 平滑 























Q 值 函数 的 估计 ， 避 免 过 
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拟 合 。 
对 于 第 一 个 技术 ， 我 们 知道 在 深度 Q 网 络 算法 中 max 操作 会 导致 & 值 过 估计 的 问题 ， 这 个 
问题 同样 存在 于 深度 确定 性 策略 梯度 算法 中 ， 因 为 深度 确定 性 策略 梯度 算法 中 Q(s,a) 的 更 新 方 
式 与 深度 Q 网 络 算法 相同 : 


















































Q(s,a) © Rs + ymax Q(s', à). (6.9) 






































在 表格 学 习 方 法 (Tabular Methods) 中 不 存在 该 问题 ， 因 为 Q 值 是 精确 存储 的 。 而 当 我 们 使 
用 神经 网 络 等 工具 作为 函数 近似 器 (Function Approximator) 来 处 理 更 复杂 的 问题 时 ，Q 值 的 估 
计 是 存在 误差 的 ， 也 就 是 说 : 









































@Qapprox(s/， a) = QESH s, â) um ve (6.10) 























其 中 ，Y3 是 零 均值 的 噪声 。 但 使 用 max 操作 ， 会 导致 CQapprx 和 QUret 之 间 存 在 误差 。 将 误差 表 
示 为 Lae 我 们 有 : 




















Z, Sg + ymax QPP'ox (S, à) mu (R? + ymax QES, a)), 
a a 


(6.11) 
=y(max Q*"(s', à) — max Q*'t*(s', â)). 

















考虑 噪声 项 Y2 ,一些 Q 值 可 能 偏 小 , 而 另 一 些 可 能 偏 大 。max 操作 总 是 为 每 个 状态 选择 最 大 
的 @ 值 ,这 将 导致 算法 对 高 估 动 作 的 对 应 Q 值 异常 敏感 。 在 这 种 情况 下 ， 该 噪声 使 得 EE[2Zs] > 0, 
从 而 导致 过 估计 问题 。 
挛 生 延 迟 DDPG 算法 在 深度 确定 性 策略 梯度 算法 中 引入 了 Double Q-Learning， 通 过 建立 两 
A Q 值 网 络 来 估计 下 一 个 状态 的 值 : 


































































































Qo: (s, a^) = Qo: (s Toi (s")), (6.12) 
Qu; (s', a^) 一 Qo; (s', 74, (s^)). (6.13) 























使 








j 两 个 Q 值 中 的 最 小 值 计算 贝尔 曼 方程 














A 


Yp=r+y min Qo; (s ts )) (6.14) 








使 用 截断 的 Double Q-Learning， 目 标 网 络 的 估 值 不 会 给 Q-Learning 的 目标 带 来 过 高 的 估计 
误差 。 虽然 此 更 新 规则 可 能 导致 低估 ， 但 这 对 更 新 影响 不 大 。 因 为 与 过 估计 的 动作 不 同 ， 低 估 的 
动作 的 Q 值 不 会 被 显 式 更 新 (Fujimoto et al., 2018). 

对 于 第 二 个 技术 ,我 们 知道 目标 网 络 是 实现 深度 强化 学 习 算法 稳定 更 新 的 有 力 工具 。 因 为 函 
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数 逼 近 需 要 多 次 梯度 更 新 才能 收敛 ， 目 标 网 络 在 学 习 过 程 中 给 算法 提供 了 一 个 稳定 的 更 新 目标 。 
羽 此 ， 如 果 目 标 网 络 可 以 用 来 减少 多 步 更 新 的 误差 ， 且 错误 状态 估计 下 的 策略 更 新 会 导致 发 散 的 
策略 更 新 ， 那 么 策略 网 络 应 该 以 比价 值 网 络 更 低 的 频率 进行 更 新 ， 以 便 在 进行 策略 更 新 之 前 先 最 
小 化 价值 估计 的 误差 。 因此 ， 杰 生 延 人 运 DDPG 算法 降低 了 策略 网 络 的 更 新 频率 ， 策 略 网 络 只 在 价 
值 网 络 更 新 d 次 后 才 进 行 更 新 。 这 种 策略 更 新 方式 可 以 使 Q 值 函 数 的 估计 具有 更 小 的 方差 ， 从 
而 获得 质量 更 高 的 策略 更 新 。 

对 于 第 三 个 技术 ,确定 性 策略 的 一 个 问题 是 该 类 方法 对 于 值 空间 中 的 窗 峰 估计 可 能 存在 过 拟 
Ao EFE DDPG 算法 原文 中 ， 作 者 认为 相似 的 动作 应 该 具有 相似 的 值 估计 ， 因 此 将 目标 动 
作 周 围 的 一 小 块 区 域 的 值 进行 模糊 拟 合 是 有 道理 的 : 


























































































































































































































































































































y — rt E.[Qu (s, no (s') + €). (6.15) 
通过 在 每 个 动作 中 加 入 截断 的 正 态 分 布 噪声 作为 正则 化 ， 可 以 平滑 Q 值 的 计算 ， 避 免 过 拟 
合 。 修 正 后 的 更 新 如 下 : 














y=7+7yQo'(s, my (s) + €), € ~ clip(.N(0,0), —c, c). (6.16) 
算法 伪 代 码 见 算法 6.27. 


算法 6.27 TD3 


MEM: 软 更 新 因子 po、 回报 折扣 因子 yY、 截 断 因子 c 
输入 : 回放 缓存 D, 初始 化 Critic 网 络 Qo, ; Qo, 参数 0 ,02， 初 始 化 Actor 网 络 Tb 参数 
初始 化 目标 网 络 参数 0; — 01,02 — 09,0 —— Q 
for t = 1 to T dodo 
选择 动作 4 ~ Telst) +e, € ~ N (0,0) 
存储 状态 转移 数据 对 (St, Ar, Ri, Dt, St+1) 到 也 
WD 中 采样 大 小 为 V 的 小 批量 祥 术 (5,, Ay, Ry, De, Sear) 
Gt1 € Ty (Sí) + €, € ~ clip(N(0,6, —6, c))« 
y € Re t (1 — Di) minizi» Qe, Sioa, Gt+1) 
更 新 Critic 网 络 0; — arg ming, NLY (y — Qo, (Si, A)? 
if t mod d then 
更 新 x 
VoJ(¢) =N! y» VaQo, (St, Ai)| A,—55 (8) V 61$ (91) 
更 新 目标 网 络 : 0 
6; — p0; + (1— pe; 
ó € pó - (1— p)ó 
end if 
end for 
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6.4 ”柔性 Actor-Critic 算法 


柔性 Actor-Critic (Soft Actor-Critic, SAC) 算法 继续 采用 了 上 一 章 提 到 的 最 大 化 烂 的 想法 。 学 
习 的 目标 是 最 大 化 业 正 则 化 的 累积 奖励 而 不 只 是 累计 奖励 ， 从 而 鼓励 更 多 的 探索 。 





























max vi r(St, Ac) + o/(ma(-|8:))) | - (6.17) 


To 








iX E o 是 正则 化 系数 。 最 大 化 粒 增 强 学 习 这 个 想法 已 经 被 很 多 论文 ,包括 (Fox et al., 2016; Haarnoja 
et al., 2017; Levine et al., 2013; Nachum et al., 2017; Ziebart et al., 2008) 提 及 。 在 本 节 中 ， 我 们 主要 
介绍 柔性 策略 迭代 〈Soft Policy Iteration) 算法 。 以 这 个 算法 为 基础 ， 我 们 会 接着 介绍 SAC. 























6.4.1 柔性 策略 迭代 


柔性 策略 迭代 是 一 个 有 理论 保证 的 学 习 最 优 最 大 化 箭 策略 的 算法 。 和 策略 和 欠 代 类 似 ， 和 柔性 策 
略 迭 代 也 分 为 两 步 : 柔性 策略 评估 和 和 柔性 策略 提高 





























V*(s) =E | >》 4° (r(S:, 4)+a3t(r(1S))| ， (6.18) 


t 











Q(s,a) = r(s, a) + YE[V(s’)] (6.19) 














这 里 假设 s^ ~ Pr (-|s,a) 是 下 一 个 状态 。 可 以 很 容易 地 验证 以 下 式 子 成 立 。 

















V*(s) = Eo; [Q(s, a) — alog(als)] . (6.20) 











在 柔性 策略 评估 时 ， 定 义 的 贝尔 曼 回 渊 算 子 7 为 




















T"Q(s,a) = r(s,a) + YE [V7(s‘)] . (6.21) 











和 策略 评估 类 似 ， 我 们 可 以 证 明 对 于 任何 映射 @" :S x A> R, QF = TTI 会 收敛 到 
的 柔性 Q 值 。 
在 策略 提高 阶段 ， 我 们 用 当前 的 Q ERKE P CK HU YE DU AE S Da AE TRU R8 o 



































n(|s) = arg max Ea; [Q(s, a) + oH (n)] . (6.22) 





6.4 柔性 Actor-Critic 算法 





求解 以 上 这 个 优化 问题 后 (Fox et al., 2016; Nachum et al., 2017) 可 以 得 到 的 解 为 





_ exp (Qs. )). 















































n(|s) = Zi) (6.23) 
这 里 Z(s) 是 归 一 化 常数 ， 也 即 Z(s) = Yo, exp (二 Q(s,a))。 如 果 采 用 的 策略 模型 无 法 表达 最 
优 的 策略 r+， 我 们 可 以 进一步 求解 
i ; 
(|s) = arg min De («ume ae) (6.24) 








我 们 可 以 证 明 在 学 习 过 程 , 上 面 描述 的 柔性 策略 提高 阶段 也 有 单调 提高 的 性 质 。. 即 使 在 使 用 KL- 散 
度 投影 到 II 之 后 这 个 性 质 也 是 成 立 的 。 这 一 点 和 上 一 章 提 到 的 TRPO 类 似 。 最 后 ， 我 们 可 以 证 
明和 柔性 策略 迭代 和 策略 迭代 类 似 收敛 到 最 优 解 ， 如 以 下 定理 所 示 。 
定理 6.1 让 ro € 姬 为 初始 策略 。 假 设 在 柔性 策略 迭代 算法 下 ,ro 会 收 化 到 rx， 那么 对 任意 的 
(s,a) € S x A det£ €89 0 € II, Q"*(s,a) 2 Q"(s,a)。 

我 们 省 略 了 这 一 章 提 到 的 各 个 结论 的 证 明 过 程 。 感 兴趣 的 读者 可 以 参考 论文 (Haarnoja et al., 
2018)。 




































































6.4.2 SAC 


























SAC 进一步 把 柔性 策略 迭代 拓展 到 更 实用 的 函数 近似 设 定 下 , 它 采 用 在 价值 函数 和 策略 函数 
之 间 进 行 交 替 优 化 的 方式 来 学 习 ， 而 不 只 是 通过 估计 策略 站 的 Q@ 值 来 提升 策略 。 

S Qs(s,a) 表示 Q 值 函数 ，re 表示 策略 函数 。 这 里 我 们 考虑 连续 动作 的 设 定 并 假设 re 的 
输出 为 一 个 正 态 分 布 的 期 望 和 方差 。 和 本 书 前 面 提 到 的 方法 类 似 ，Q@ 值 函数 可 以 通过 最 小 化 柔性 
Bellman 5X 2:5K^£ 2]: 


















































































































































Jol) =E [CE = r(Si, At) — y, LS,+1 [se | . (6.25) 











这 里 Vi(s) = Es, |Qs(s.a) - alog no(als)|. Qs 表示 参数 5 由 Q 值 函数 的 参数 o 的 指数 移 
动 平均 数 得 到 的 目标 Q 值 网 络 。 策 略 函 数 ro 可 以 通过 最 小 化 以 下 的 KL- 散 度 得 到 。 
































s) - Qu(s, oj] . (6.26) 


Ja (0) =Es.p [Es [o log Tela 












































实际 中 ，SAC 也 使 用 了 两 个 Q 值 函 数 〔 同 时 还 有 两 个 Q 值 目标 函数 ) KEE Q 值 估计 的 
偏差 问题 ， 也 就 是 令 Qu(s a) = min (Qu, (s.a), Qu, (s, a)) - 注意 到 .所 (0) 中 的 期 望 也 依赖 于 策略 
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Tbo， 我 们 可 以 使 用 似 然 比例 梯度 估计 的 方法 来 优化 J, (0) (Williams, 1992)。 在 连续 动作 空间 的 设 
定 下 ， 我 们 也 可 以 用 策略 网 络 的 重 参数 化 来 优化 。 这 样 往往 能 够 减少 梯度 估计 的 方差 。 再 参数 化 
的 做 法 将 re 表示 成 一 个 使 用 状态 s 和 标准 正 态 样本 € 作为 其 输入 的 函数 直接 输出 动作 a: 




















































































































a= fo(s,€). (6.27) 


代入 In (0) 的 式 子 中 














Jr(0) = Ese [alog no(fo(s,e)|s) — Qols, fols, ))] - (6.28) 




















ATE N 表示 标准 正 态 分 布 ，re 现在 被 表示 为 foo 
最 后 ，SAC 还 提供 了 自动 调节 正则 化 参数 a 方法 。 该 方法 通过 最 小 化 以 下 损失 函数 实现 。 
































J(a) = Eaxro [—a log To(a|s) — ar] . (6.29) 














这 里 d — ^ n] BEEN A EE. PET a TTL RA TE. MUN 
Je AY JER BLE E 28 FE PRON < ART, CREE CS OO HAER. X A 
调节 方法 的 严格 表述 感 兴趣 的 读者 ， 可 以 参考 SAC 的 论文 (Haarnoja et al., 2018). HIE 6.28 给 出 
了 SAC 的 伪 代 码 。 




































































算法 6.28 Soft Actor-Critic (SAC) 


MSM: HIR k, HK AQ, Ar, Aa, 指数 移动 平均 系数 r。 
输入 : 初始 策略 函数 参数 0, 初始 Q 值 函数 参数 pi 和 o». 
D = 0; 6; = di fori = 1,2 
for k = 0,1,2,--- = 
fort = 0,1,2,--- 
从 nal: [5;) Ta At, 保存 (Ri, S141)» 
D=DvU (95, At, Re, S11) 
end for 
进行 多 步 梯 度 更 新 : 
di = di — AQV Jo(ói) for i = 1,2 
0 = 0 — A, Vo Jz (0) 
a=a—A,VJ(a) 
à; = (1—7)¢ + 7; for i = 1,2 
end for 
返回 0, $1, $2» 
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代码 例子 





6.5 


代码 例子 





本 节 将 分 享 DDPG、TD3、 和 SAC 的 代码 例子 。 它 们 都 是 使 用 
Critic 方法 。 这 里 的 例子 都 基于 OpenAI Gym 环境 。 由 于 这 些 算 法 者 


] *Pendulum-VO" Iž. 

















We 


6.5.1 


之 前 有 提 到 过 ，Pendulum-V0 是 一 个 经 典 的 介 














Q 网 络 作 为 批判 














基于 连续 动作 空 











相关 的 Gym 环境 











立 摆 环境 。 它 有 3 维 观测 空间 和 1 2f 























在 每 步 ， 





























6.5.2 














DDPG: Pendulum-V0 














DDPG 使 用 离线 策略 和 TD 方法 。DDPG 类 的 结构 如 下 所 示 。 














者 的 Actor- 
间 ， 我 们 使 








E 动 作 空 间 。 














， 环 境 根 据 当前 的 旋转 角度 、 速 度 和 加 速度 返回 一 个 奖励 。 此 任务 的 目标 是 让 倒立 摆 尽 
量 直 立 不 动 ， 来 获取 最 高 分 数 。 





class D 
def 


def 


def 


def 


def 


def 


def 


DPG(object): 
. init (self, action dim, state dim, action range): # 初始 化 
ema update(self): £ 指数 滑动 平均 更 新 


get_action(self, s, greedy=False): # 获得 动作 


learn(self): # 学 习 和 更 行 





store transition(self, s, a, r, S_): # 存储 转移 
save(self): # 存储 模型 


load(self): # 载 入 模型 





在 初始 化 函数 中 ， 建 立 了 4 个 网 络 ， 分 别 是 行动 者 网 络 、 批 判 才 
判 者 目标 网 络 。 目 标 网 络 的 参数 将 被 直接 蔡 换 为 对 应 网 络 的 参数 。 








网 络 、 行 动 者 目 




















标 网 络 和 批 





class DDPG(object): 


def 


init__(self, action dim, state dim, action range): 


self.memory = np.zeros((MEMORY CAPACITY, state dim * 2 + action dim + 1), 


dtype-np. float32) 
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Self.pointer = 0 

self.action_dim, self.state_dim, self.action_range = action_dim, state_dim, 
action_range 

self.var = VAR 


W init = tf£.random_normal_initializer(mean=0, stddev=0. 3) 


b init = tf.constant_initializer(0.1) 


def get_actor(input_state_shape, name=’’): 

input layer = tl.layers.Input(input state shape, name=’A_input’) 

layer - tl.layers.Dense(n units-64, act-tf.nn.relu, W init-W init, 
b init-b init, name-'A l1')(input layer) 

layer - tl.layers.Dense(n units-64, act-tf.nn.relu, W init-W init, 
b init-b init, name-'A 12')(layer) 

layer - tl.layers.Dense(n units-action dim, act-tf.nn.tanh, W init-W init, 
b init-b init, name-'A a')(layer) 

layer - tl.layers.Lambda(lambda x: action range * x)(layer) 


return tl.models.Model(inputs-input layer, outputs-layer, name-'Actor' + name) 


def get. critic(input state shape, input action shape, name-''): 
State input - tl.layers.Input(input state shape, name-'C s input') 
action input = tl.layers.Input(input action shape, name-'C a input') 
layer - tl.layers.Concat(1)([state input, action input]) 
layer - tl.layers.Dense(n units-64, act-tf.nn.relu, W init-W init, 
b init-b init, name=’C_11’) (layer) 
layer - tl.layers.Dense(n units-64, act-tf.nn.relu, W init-W init, 
b init-b init, name-'C 12')(layer) 


layer = tl.layers.Dense(n units-1, W init-W init, b init-b init, 





name-'C out')(layer) 
return tl.models.Model(inputs-[state input, action input], outputs-layer, 


name-'Critic' + name) 


self.actor - get actor([None, state dim]) 


self.critic - get critic([None, state dim], [None, action dim]) 
self.actor.train() 


self.critic.train() 


6.5 ”代码 例子 





def copy para(from model, to model): 
for i, j in zip(from model.trainable weights, to model.trainable weights): 


j-assign(i) 





self.actor_target = get_actor([None, state_dim], name=’_target’) 
copy_para(self.actor, self.actor_target) 


self.actor_target.eval() 


self.critic_target = get_critic([None, state_dim], [None, action_dim], 
name-' target') 
copy. para(self.critic, self.critic target) 


self.critic target.eval() 


self.ema = tf.train.ExponentialMovingAverage(decay-1 - TAU) # £5 9 


self.actor opt - tf.optimizers.Adam(LR A) 
self.critic opt - tf.optimizers.Adam(LR C) 























在 训练 过 程 中 ， 目 标 网 络 的 参数 将 通过 滑动 平均 来 更 新 。 























def ema_update(self): 
paras = self.actor.trainable_weights + self.critic.trainable_weights 
self.ema.apply (paras) 
for i, j in zip(self.actor_target.trainable_weights + 
self.critic_target.trainable_weights, paras): 


i.assign(self.ema.average(j)) 














于 策略 网 络 是 一 个 确定 性 策略 网 络 ， 所 以 我 们 如 果 不 是 要 贪心 地 选择 动作 ， 就 要 对 动作 增 
加 一 些 随机 。 我 们 这 里 使 用 了 一 个 正 态 分布 作 为 随机 项 ， 它 的 方差 会 随 着 更 新 迭代 而 渐渐 减 小 。 
这 里 的 随机 可 以 改 成 其 他 方式 ， 如 O-U 噪声 。 不 过 OpenAfIl 推荐 使 用 不 相关 的 0 均值 高 斯 噪声 ， 
效果 很 好 。 























































































































def get_action(self, state, greedy=False): 
a = self.actor(np.array([s], dtype=np.float32)) [0] 
if greedy: 


return a 





! 链 接见 读者 服务 
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return np.clip(np.random.normal(a, self.var), 
-self.action_range, 


self.action_range) 












































在 learnO 函数 中 , 我 们 从 回放 缓存 中 采样 离线 数据 , 并 使 用 贝尔 曼 方 程 来 学 习 Q 函数 。 之 
后 ， 可 以 通过 最 大 化 Q 值 来 学 习 策 略 。 最 后 ， 通 过 Polyak 平均 (Polyak, 1964) 来 更 新 目标 网 络 ， 
其 公式 为 8 — pd? + (1 — p)69',0" 二 pr 十 (1 一 pbr 。 



























































def learn(self): 
self.var *= .9995 
indices = np.random.choice(MEMORY_CAPACITY, size=BATCH_SIZE) 
bt = self.memory[indices, :] 
bs = bt[:, :self.s dim] 
ba = bt[:, self.s dim:self.s dim + self.a dim] 
br = bt[:, -self.s dim - 1:-self.s dim] 
bs. = bt[:, -self.s dim:] 


with tf.GradientTape() as tape: 
a. = self.actor target(bs. ) 
q— = self.critic target([bs , a. ]) 
y = br + GAMMA * q_ 
q = self.critic([bs, ba]) 
td_error = tf.losses.mean_squared_error(y, q) 
c_grads = tape.gradient(td_error, self.critic.trainable_weights) 


self.critic_opt.apply_gradients(zip(c_grads, self.critic.trainable weights)) 


with tf.GradientTape() as tape: 

a = self.actor(bs) 

q = self.critic([bs, a]) 

a loss = -tf.reduce mean(q) # 最 大 化 O 值 
a_grads = tape.gradient(a_loss, self.actor.trainable_weights) 
self.actor_opt.apply_gradients(zip(a_grads, self.actor.trainable weights)) 


self.ema update() 
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H 








store transitionO 函数 使 用 了 回放 缓存 来 存储 每 步 的 转移 数据 。 











def store transition(self, s, a, r, S_): 
S = s.astype(np.float32) 
S_ = S. .astype(np. float32) 
transition = np.hstack((s, a, [r], s_)) 
index = self.pointer 
self.memory[index, :] = transition 


self.pointer += 1 















































主 函 数 非常 直接 易 懂 ， 就 是 在 每 一 步 中 使 用 智能 体 和 环境 交互 ， 将 数据 存 入 














H 





放 缓 存 ， 再 从 
































回放 缓存 中 随机 采样 数据 更 新 网 络 。 











env = gym.make(ENV_ID) .unwrapped 





次 机 种 子 ， 方 
env.seed(RANDOM SEED) 
np.random.seed(RANDOM SEED) 
tf.random.set seed(RANDOM SEED) 


State dim = env.observation_space.shape[0] 


action dim = env.action space.shape[0] 





action range = env.action space.high # / [-action range, action range] 
agent - DDPG(action dim, state dim, action range) 
tO = time.time() 


if args.train: # 训练 
all episode reward - [] 
for episode in range(TRAIN EPISODES): 
state - env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): 
if RENDER: 
env.render() 
# 添 ; 





action - agent.get action(state) 
State , reward, done, info - env.step(action) 


agent.store transition(state, action, reward, state.) 
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if agent.pointer > MEMORY CAPACITY: 
agent.learn() 

state = state. 

episode reward += reward 

if done: 
break 


if episode == Q: 
all episode reward.append(episode reward) 
else: 
all. episode reward.append(all episode reward[-1] * 0.9 + episode reward * 
0.1) 
print( 
'Training | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{:.4£}’ . format ( 
episode+1, TRAIN_EPISODES, episode_reward, 
time.time() - tO 


agent.save() 

plt.plot(all episode reward) 

if not os.path.exists('image'): 
os.makedirs('image') 


plt.savefig(os.path.join('image', 'ddpg.png')) 

















在 训练 完成 后 ， 可 以 进行 测试 。 














if args.test: 

# 测试 

agent. loadQ) 

for episode in range(TEST_EPISODES) : 
state = env.reset() 
episode. reward = 0 
for step in range(MAX STEPS): 

env.render() 


State, reward, done, info - env.step(agent.get action(state, greedy-True)) 


episode reward += reward 
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if done: 
break 
print( 
'Testing | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{:.4£}’ .format( 
episode + 1, TEST_EPISODES, episode_reward, 


time.time() - t0)) 





6.5.3 TD3: Pendulum-V0 











TD3 代码 使 用 了 这 些 类 : ReplayBuffer. QNetwork, PolicyNetwork 和 TD3. 














ReplayBuffer 类 用 来 建立 一 个 回放 缓存 ， 它 的 主要 函数 是 push() 和 sampleO 函数 。 











class ReplayBuffer: 
def | init. (self, capacity): # 初始 化 函数 





def push(self, state, action, reward, next state, done): # 存 入 





def sample(self, batch size): £ X 





def | len (self): # 通过 重 构 以 实 























包含 指针 、 组 在 和 容量 值 变量 。 





SE 
































init 函数 负责 初始 化 ， 其 ! 





def | init. (self, capacity): 
self.capacity - capacity 
self.buffer - [] 
self.position = 0 






































push() 函数 负责 将 数据 存 入 缓存 ， 并 且 移 动 指 针 。 这 里 的 缓存 是 一 个 环形 缓存 。 








def push(self, state, action, reward, next_state, done): 
if len(self.buffer) < self.capacity: 
self.buffer.append(None) 
self.buffer[self.position] = (state, action, reward, next_state, done) 


self.position = int((self.position + 1) 




















sample O 函数 负责 从 缓存 中 采样 数据 并 返回 。 
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def sample(self, batch_size): 
batch = random.sample(self.buffer, batch_size) 


State, action, reward, next state, done = map(np.stack, zip(*batch)) # ##@ 





return state, action, reward, next_state, done 











通过 重 构 _ len. O 函数 可 以 在 ReplayBuffer 类 被 lend 函数 调用 的 时 候 返 








H 








缓存 的 








def __len__(self): 


return len(self.buffer) 








、 


立 网 络 的 方法 ， 通 过 继承 

















Hr 














Tg 
| 














In 





QNetwork 类 被 用 于 建立 批判 者 的 Q 网 络 。 这 里 使 用 了 男 一 种 于 
Model 类 并 重 构 forward 函数 来 建立 网 络 模型 。 


























class QNetwork(Model): 
def |, init (self, num inputs, num actions, hidden dim, init w-3e-3): 

super(QNetwork, self). init O 

input dim = num inputs + num actions 

w init - tf.random uniform initializer(-init w, init w) 

self.linearl = Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-input dim, name=’q1’) 

self.linear2 - Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-hidden dim, name=’q2’) 


self.linear3 = Dense(n units-1, W init-w init, in channels-hidden dim, name=’q3’) 


def forward(self, input): 
x - self.linearl(input) 
x = self.linear2(x) 
x - self.linear3(x) 


return x 





Tur 








PolicyNetwork 类 用 于 建立 行动 者 的 策略 网 络 。 它 在 建立 网 络 模型 的 同时 ,也 增加 了 evaluate()、 
get action(). sample_action() 函数 。 





class PolicyNetwork (Model): 


def . init . (self, num inputs, num actions, hidden dim, action range-1., 
init w-3e-3): # 初始 化 网 络 
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def forward(self, state): # = 


def evaluate(self, state, eval noise scale): # 进行 评估 


def get action(self, state, explore noise scale, greedy-False): # 获取 动作 


def sample action(self): # 采样 动作 








立 网 络 结构 的 详细 过 程 如 下 所 示 。 


[on 








class PolicyNetwork(Model): 
def | init. (self, num inputs, num actions, hidden dim, action range-1., 

init w-3e-3): 

super(PolicyNetwork, self). init O 

w init - tf.random uniform initializer(-init w, init w) 

self.linearl = Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-num inputs, name-'policyl') 

self.linear2 - Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-hidden dim, name-'policy2') 

self.linear3 - Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 
in channels-hidden dim, name-'policy3') 

self.output linear - Dense(n units-num actions, W init-w init, 
b init-tf.random uniform initializer(-init w, init w), 
in channels-hidden dim, name-'policy output') 

self.action range - action range 


self.num actions - num actions 


def forward(self, state): 
X = self.linearl(state) 
x = self.linear2(x) 


x = self.linear3(x) 





output = tf.nn.tanh(self.output linear(x)) # 2 E H% 


return output 









































evaluate O 函数 通过 评估 状态 产生 用 于 计算 梯度 的 动作 。 它 利用 目标 策略 平滑 技术 来 产生 
有 噪声 的 动作 。 
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def evaluate(self, state, eval_noise_scale): 
state = state.astype(np. float32) 
action = self.forward(state) 


* 


action - self.action range * action 





normal = Normal(8, 1) 

eval noise clip - 2 * eval noise scale 

noise - normal.sample(action.shape) * eval noise scale 

noise - tf.clip by value(noise, -eval noise clip, eval noise clip) 
action = action + noise 


return action 





























get actionO 函数 通过 状态 来 产生 用 于 和 环境 交互 的 动作 。 





def get_action(self, state, explore_noise_scale, greedy=False): 


action = self.forward([state]) 


* 


action = self.action range * action.numpy() [0] 


if greedy: 
return action 


bou xk 


# AXE 





normal = Normal(8, 1) 
noise - normal.sample(action.shape) * explore noise scale 
action += noise 


return action.numpy() 
































sample actionO 函数 用 于 在 训练 开始 时 产生 随机 动作 。 





def sample_action(self, ): 
a = tf.random.uniform([self.num_actions], -1, 1) 


return self.action_range * a.numpy() 





接 下 来 介绍 TD3 类 ， 它 是 本 例子 的 核心 内 容 。 





class TD3O: 

def __init__(self, state_dim, action_dim, replay_buffer, hidden_dim, action_range, 
policy_target_update_interval=1, q_lr=3e-4, policy_lr=3e-4): 

# A } 








def target_ini(self, net, target net): # 4%] 
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初始 化 函数 创建 了 2 个 Q 网 络 、1 个 策略 网 络 ， 还 建立 了 它们 的 目标 网 络 。 总 共 建 立 了 
(2 十 1) x 22 6 个 网 络 。 





class TD3O: 
def __init__(self, state dim, action dim, replay buffer, hidden dim, action range, 
policy. target update interval-1, q lr-3e-4, policy lr-3e-4): 
self.replay buffer - replay buffer 


# 初始 化 所 有 网 络 

self.q_netl = QNetwork(state dim, action dim, hidden dim) 

self.q net2 - QNetwork(state dim, action dim, hidden dim) 

self.target q netl = QNetwork(state dim, action dim, hidden dim) 

self.target q net2 - QNetwork(state dim, action dim, hidden dim) 

self.policy net - PolicyNetwork(state dim, action dim, hidden dim, action range) 

self.target policy net - PolicyNetwork(state dim, action dim, hidden dim, 
action. range) 

print('Q Network (1,2): ', self.q net1) 


print('Policy Network: ', self.policy net) 





# 初始 化 目标 网 络 
self.target_q_netl = self.target_ini(self.q_net1, self.target_q_net1) 
self.target_q_net2 = self.target_ini(self.q_net2, self.target_q_net2) 
self.target_policy_net = self.target_ini(self.policy_net, self.target_policy_net) 





self.q_netl.trainQ 
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self.q net2.train() 
self.target q netl.train() 
self.target q net2.train() 
self.policy_net.trainQ 
self.target policy net.train() 


self.update cnt - 0 


self.policy target update interval - policy target update interval 


self.q_optimizerl = tf.optimizers.Adam(q lr) 
self.q optimizer2 - tf.optimizers.Adam(q lr) 


self.policy optimizer - tf.optimizers.Adam(policy lr) 








: 








FE 
c 





Th 
= 
c 


target iniO 函数 和 target. soft updateO 函数 都 用 来 更 新 目标 网 络 。 不 同 之 处 在 
者 是 通过 硬 拷贝 直接 替换 参数 ， 而 后 者 是 通过 Polyak 平均 进行 软 更 新 。 
























































def target ini(self, net, target. net):- 
for target param, param in zip(target net.trainable weights, 
net.trainable weights): 
target param.assign(param) 


return target net 


def target soft update(self, net, target net, soft tau):- 
for target param, param in zip(target net.trainable weights, 
net.trainable weights): 
target param.assign(target param * (1.0 - soft tau) + param * soft tau) # 软 更 
新 
return target_net 











接 下 来 将 介绍 关键 的 update 函数 。 这 部 分 充分 体现 了 TD3 算法 的 3 个 关键 技术 。 
在 函数 的 开始 部 分 ， 我 们 先 从 回放 缓存 中 采样 数据 。 

















H 




















def update(self, batch size, eval noise scale, reward scale-18., gamma=0.9, 


soft tau-1e-2): # 更 新 TD3 中 的 所 有 网 


self.update_cnt += 1 





# 采样 


state, action, reward, next_state, done = self.replay_buffer.sample(batch_size) 
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E PE 


reward = reward[:, np.newaxis] # 扩展 维度 


done = done[:, np.newaxis] 











Be POR, 我 们 通过 给 目标 动作 增加 噪声 实现 了 目标 策略 平滑 技术 。 通 过 这 样 跟随 动作 的 变化 ， 
对 Q 值 进行 平滑 ， 可 以 使 得 策略 更 难 利用 Q 函数 的 拟 合 差错 。 这 是 TD3 算法 中 的 第 三 个 技术 。 






































时 。 通 过 给 目标 动作 增 


new_next_action = self.target_policy_net.evaluate( 





# 技术 三 : 目标 来 实现 


next_state, eval_noise_scale=eval_noise_scale 





reward = reward_scale * (reward - np.mean(reward, axis=0)) / np.std(reward, 


axis=0) 




















下 一 个 技术 是 截断 的 Double-Q Learning。 它 将 同时 学 习 两 个 Q@ 值 函数 , 并 且 选 择 较 小 的 Q 值 
来 作为 贝尔 曼 误 差 损失 函数 中 的 目标 Q 值 。 通 过 这 种 方法 可 以 减轻 Q 值 的 过 估计 。 这 也 是 TD3 
算法 中 的 第 一 个 技术 。 


J 



















































































# 训练 Q 函数 


target_q_input = tf.concat([next state, new next action], 1) # 0 维 是 样 : 





用 了 更 小 的 Q 值 作为 目标 Q 值 


target_q_min = tf.minimum(self.target q netl(target_q_input), 





# 技术 一 : ”截断 的 Double-Q Learning。 这 


self.target_q_net2(target_q_input) ) 


target q value = reward + (1 - done) * gamma * target q min # 如 果 done==1， 则 只 有 


# reward 值 





q_input = tf.concat([state, action], 1) # 处 理 Q W% 


with tf.GradientTape() as ql tape: 

predicted q valuel = self.q neti(q input) 

q value loss1 = tf.reduce mean(tf.square(predicted q valuel - target q value)) 
q1 grad = gi. tape.gradient(q value loss1, self.q netl.trainable weights) 
self.q optimizerl.apply gradients(zip(ql grad, self.q neti.trainable weights)) 


with tf.GradientTape() as q2 tape: 
predicted q value2 - self.q net2(q input) 


q. value loss2 = tf.reduce mean(tf.square(predicted q value2 - target q value)) 
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q2_grad = q2_tape.gradient(q_value_loss2, self.q_net2.trainable_weights) 
self.q_optimizer2.apply_gradients(zip(q2_grad, self.q net2.trainable weights)) 

















最 后 一 个 技术 是 延迟 策略 更 新 技术 。 这 里 的 策略 网 络 及 其 目标 网 络 的 更 新 频率 比 Q 值 网 络 
的 更 新 频率 更 小 。 论 文 (Fujimoto et al., 2018) 中 建议 每 2 次 Q 值 函 数 更 新 时 进行 1 次 策略 更 新 。 
这 也 是 TD3 算法 中 提 到 的 第 二 个 技术 。 

































































# 训练 策略 函数 








4 Age phy 
7k H 各 





# 技术 二 : # 
if self.update_cnt 
with tf.GradientTape() as p_tape: 
new_action = self.policy_net.evaluate( 
state, eval_noise_scale=0.0 
) # TRF 
new q input = tf.concat([state, new action], 1) 





# 实现 方法 





# predicted_new_q_value = 
tf.minimum(self.q_net1(new_q_input) , self.q_net2(new_q_input) ) 


= 
Fy 六 





predicted_new_q_value = self.q_net1(new_q_input) 

policy loss = -tf.reduce mean(predicted new q value) 
p.grad - p. tape.gradient(policy loss, self.policy net.trainable weights) 
self.policy optimizer.apply gradients(zip(p. grad, 

self.policy net.trainable weights)) 





self.target_q_netl = self.target soft update(self.q net1, self.target_q_netl, 
Soft tau) 

self.target q net2 = self.target soft update(self.q net2, self.target q net2, 
Soft tau) 

self.target policy net - self.target soft update(self.policy net, 
self.target policy net, soft tau) 








如 下 是 主要 训练 代码 。 这 里 先 创建 环境 和 智能 体 。 


Th 








# 初始 化 环境 
env = gym.make(ENV_ID) .unwrapped 
state_dim = env.observation_space.shape[0] 


action dim = env.action_space.shape[0] 
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action range = env.action space.high # ^ [-action range, action range] 





env.seed(RANDOM SEED) 
random.seed(RANDOM SEED) 
np.random.seed(RANDOM SEED) 
tf.random.set seed(RANDOM SEED) 


# 初始 化 回 
replay buffer = ReplayBuffer(REPLAY BUFFER SIZE) 








agent - TD3(state dim, action dim, action range, HIDDEN DIM, replay buffer, 
POLICY TARGET UPDATE INTERVAL, Q LR, POLICY LR) 
tO = time.time() 























在 开始 片段 之 前 ， 需 要 做 一 些 初 始 化 操作 。 这 里 训练 时 间 受 总 运行 步 数 的 限制 ， 而 不 是 最 大 
片段 迭代 数 。 由 于 网 络 建立 的 方式 不 同 ， 这 种 方式 需要 在 使 用 前 额外 调用 一 次 函数 。 
























































if args.train: 
frame_idx = 0 
all_episode_reward = [] 


进行 一 ; 





# model. forward 
state = env.reset() .astype(np. float32) 
agent .policy_net ([state]) 
agent.target policy net([state]) 

















在 训练 刚 开 始 的 时 候 ， 会 先 由 智能 体 进 行 随机 采样 。 通 过 这 种 方式 可 以 采集 到 足够 多 的 用 于 
更 新 的 数据 。 在 那 之 后 ， 智 能 体 还 是 和 往常 一 样 与 环境 进行 交互 并 采集 数据 ， 再 进行 存储 和 更 新 。 











































































































for episode in range(TRAIN EPISODES): 
state = env.reset().astype(np.float32) 
episode. reward = 0 
for step in range(MAX STEPS): 
if RENDER: 
env.render() 
if frame idx » EXPLORE STEPS: 
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action = agent.policy_net.get_action(state, EXPLORE_NOISE_SCALE) 


else: 


action = agent.policy_net.sample_action() 


next_state, reward, done, _ = env.step(action) 
next state = next state.astype(np.float32) 


done = 1 if done is True else 0 


replay buffer.push(state, action, reward, next state, done) 
state = next state 
episode reward += reward 


frame idx += 1 


if len(replay buffer) » BATCH SIZE: 
for i in range(UPDATE ITR): 
agent.update(BATCH SIZE, EVAL NOISE SCALE, REWARD. SCALE) 
if done: 
break 





最 终 ， 我 们 提供 了 一 些 可 视 化 训练 过 程 所 需 的 函数 ， 并 将 训练 的 模型 进行 存储 。 











if episode == 0: 
all episode reward.append(episode reward) 
else: 
all. episode reward.append(all episode reward[-1] * 0.9 + episode reward * 
0.1) 
print( 
'Training | Episode: {}/{} | Episode Reward: {:.4f} | Running Time: 
{:.4£}’ . format ( 
episode-1, TRAIN EPISODES, episode reward, 
time.time() - tO 


) 
agent.save() 
plt.plot(all episode reward) 
if not os.path.exists('image'): 
os.makedirs('image') 


plt.savefig(os.path.join('image', 'td3.png')) 
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6.5.4 SAC: Pendulum-v0 




















SAC fi Hl T BARRIKA SUT LMR EAT RL. ERARE EE SEU, 18, 
使 用 了 一 些 TD3 中 的 技术 。 其 目标 Q 值 的 计算 使 用 了 两 个 Q 网 络 中 的 最 小 值 和 策略 x(&|s) 的 对 
数 概 率 。 例 子 中 的 代码 使 用 了 这 些 类 : ReplayBuffer、SoftQNetwork、PolicyNetwork 和 SAC. 
其 中 ReplayBuffer 和 SoftQNetwork 类 与 TD3 中 的 ReplayBuffer 和 QNetwork 类 一 样 ， 
这 里 就 不 再 著述 ， 直 接 介绍 后 续 的 代码 。 

































































































































































class ReplayBuffer: # 一 个 环形 





def __init__(self, capacity): 


class SoftQNetwork(Model): # 用 于 评估 状态 -动作 值 Q(s,a) 的 





def | init (self, num inputs, num actions, hidden dim, init w-3e-3): 

















PolicyNetwork 类 也 和 TD3 的 十 分 相似 。 不 同 之 处 在 于 ，SAC 使 用 了 一 个 随机 策略 网 络 ， 而 
不 是 TD3 中 的 确定 性 策略 网 络 。 


























class PolicyNetwork(Model): 


def |. init. (self, num inputs, num actions, hidden dim, action range-1., 


init w-3e-3, log std min--20, log std max-2): # 初始 化 


def get action(self, state, greedy-False): # 获取 动作 
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随机 策略 网 络 输出 了 动作 和 对 数 标准 差 来 描述 动作 分 布 。 因 此 网 络 有 两 层 输出 。 









































class PolicyNetwork (Model): 


def . init . (self, num inputs, num actions, hidden dim, action range-1., 


init w-3e-3, log std min--20, log. std max-2): 
super(PolicyNetwork, self). init  O 
self.log std min - log. std min 
self.log std max = log std max 


w init = tf.keras.initializers.glorot normal(seed-None) 


self.linearl = Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 


in channels-num inputs, name-'policyl') 


self.linear2 - Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 


in channels-hidden dim, name-'policy2') 


self.linear3 - Dense(n units-hidden dim, act-tf.nn.relu, W init-w init, 


in channels-hidden dim, name-'policy3') 
self.mean linear - Dense(n units-num actions, W init-w init, 
b init-tf.random uniform initializer(-init w, init w), 
in channels-hidden dim, name-'policy mean') 
self.log std linear - Dense(n units-num actions, W init-w init, 
b init-tf.random uniform initializer(-init w, init w), 
in channels-hidden dim, name-'policy logstd') 
self.action range - action range 


self.num actions - num actions 























这 里 在 forward O 函数 中 的 对 数 标准 差 上 进行 截断 ， 防 止 标准 差 过 大 。 























def 


forward(self, state): 

x = self.linearl(state) 

x = self.linear2(x) 

x = self.linear3(x) 

mean = self.mean_linear (x) 

log_std = self.log_std_linear (x) 

log_std = tf.clip by value(log.std, self.log std min, self.log_ 
return mean, log. std 


std max) 


























evaluate O 函数 使 用 重 参数 技术 从 动作 分 布 上 采样 动作 ， 这 样 可 以 保 订 
函数 也 计算 了 采样 动作 在 原始 动作 分 布 上 的 对 数 概率 。 


220 














E 梯 度 能 够 反问 传播 。 


6.5 ”代码 例子 








def evaluate(self, state, epsilon-1e-6): 
State = state.astype(np.float32) 
mean, log std - self.forward(state) 





std = tf.math.exp(log std) £ if Git si 
normal = Normal(8, 1) 


z - normal.sample(mean.shape) 





分 布 ; 这 里 








= 加 了 一 个 额外 项 以 标准 化 不 同 动作 范围 
log prob = Normal(mean, std).log_prob(mean + std * z) - tf.math.log(1. - 


action 0 ** 2 + epsilon) - np.log(self.action range) 







# normal.log prob 和 -log(1l-a** 是 (N,dim of action); 


不 是 1 p 


Y 





# Normal.log prob f 

# 这 E Eum, 

log prob - tf.reduce sum(log prob, axis-1)[:, np.newaxis] 
EY RER 


return action, log. prob, z, mean, log std 


7 


# 由 于 reduce sum 减少 了 1 个 维度 ， 这 里 将 











get actionO 函数 是 前 面 函 数 的 简单 版 。 它 只 需要 从 动作 分 布 上 采样 动作 即 可 。 























def get_action(self, state, greedy=False): 
mean, log_std = self.forward([state]) 
std = tf.math.exp(log_std) 
normal = Normal(8, 1) 
z = normal.sample(mean. shape) 
action = self.action range * tf.math.tanh( 
mean + std * z 


让 布 使 用 TanhNormal 分 布 ; X EEH Y BZ 





action = self.action_range * tf.math.tanh(mean) if greedy else action 


return action.numpy() [0] 





























DM 


E 训 练 刚 开始 的 时 候 采 集 第 一 次 更 新 所 需 的 数据 。 














sample_action() 函数 更 加 简单 。 它 只 用 





def sample_action(self, ): 
a = tf.random.uniform([self.num_actions], -1, 1) 


return self.action_range * a.numpy() 
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SAC 的 结构 如 下 : 





class SACQ): 
def __init__(self, state_dim, action_dim, replay_buffer, hidden_dim, action_range, 


soft_q_lr=3e-4, policy_lr=3e-4, alpha lr-3e-4): # 建 工 网 络 及 变量 








def update(self, batch_size, reward_scale=10., auto_entropy=True, 


百 


target entropy--2, gamma=0.99, soft_tau=le-2): # 更 新 SAC 中 所 有 的 





def save(self): # 存储 训 





def load(self): 4 载 入 训练 参数 























SAC 算法 中 有 5 个 网 络 ， 分 别 是 2 个 soft Q 网 络 及 其 目标 网 络 ， 以 及 一 个 随机 策略 网 络 。 另 
外 还 需要 一 个 alpha 变量 来 作为 炉 正则 化 的 权衡 系数 。 

















class SACQ): 
def __init__(self, state dim, action dim, replay buffer, hidden dim, action range, 
soft. q lr-3e-4, policy lr-3e-4, alpha lr-3e-4): 
self.replay buffer - replay buffer 





self.soft q netl1 = SoftQNetwork(state dim, action dim, hidden dim) 
self.soft q net2 - SoftQNetwork(state dim, action dim, hidden dim) 
self.target soft q net1 = SoftQNetwork(state dim, action dim, hidden dim) 
self.target soft q net2 - SoftQNetwork(state dim, action dim, hidden dim) 
self.policy net - PolicyNetwork(state dim, action dim, hidden dim, action range) 
self.log alpha = tf.Variable(8, dtype-np.float32, name-'log alpha') 

self.alpha - tf.math.exp(self.log alpha) 

print('Soft Q Network (1,2): ', self.soft q net1) 


print('Policy Network: ', self.policy net) 
# set mode 


self.soft q netl.train(O 
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self.soft_q_net2.train() 
self.target soft q netl.eval() 
self.target soft qg net2.eval() 
self.policy net.train(O 





# 初始 化 目标 网 络 的 参数 

self.target_soft_q_netl = self.target_ini(self.soft_q_net1l, 
self.target_soft_q_net1) 

self.target soft q net2 = self.target ini(self.soft. q net2, 
self.target soft q net2) 


self.soft q optimizerl1 = tf.optimizers.Adam(soft q lr) 
self.soft q optimizer2 - tf.optimizers.Adam(soft q lr) 
self.policy optimizer - tf.optimizers.Adam(policy lr) 


self.alpha optimizer - tf.optimizers.Adam(alpha lr) 
















































































这 里 我 们 介绍 一 下 updated 函数 。 其 他 函数 和 之 前 TD3 HAUS — RE, EMR. RITE 
常 一样， 在 updated 函数 的 开始 ， 我 们 先 从 回放 缓存 中 采样 数据 。 对 奖励 值 进行 正则 化 ， 以 提 
高 训练 效果 。 














def update(self, batch size, reward_scale=10., auto entropy-True, target entropy--2, 


gamma=0.99, soft tau-le-2): 

State, action, reward, next state, done - self.replay buffer.sample(batch size) 
reward = reward[:, np.newaxis] # 扩展 维度 

done - done[:, np.newaxis] 

reward = reward scale * (reward - np.mean(reward, axis=0)) / C 


np.std(reward, axis-0) + 1e-6 








1E 
小 的 值 
里 的 1 






































这 之 后 ， 我 们 将 基于 下 一 个 状态 值 计算 相应 的 Q 值 。SAC 使 用 了 两 个 目标 网 络 输出 中 较 
， 这 里 和 TD3 相同 。 但 是 与 之 不 同 的 是 ，SAC 在 计算 目标 Q 值 的 时 候 增加 了 焙 正 则 项 。 这 
og. prob ii) z& — 4 BU SR BG BUE MIRE - 
















































































# 训练 Q 函 


new_next_action, next_log_prob, _, _, = self.policy_net.evaluate(next_ state) 








target q input = tf.concat([next state, new next action], 1) # 第 0 #=* 
target q min - tf.minimum( 


self.target soft q neti(target q input), 
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self.target soft q net2(target q input) 
) - self.alpha * next log. prob 
target q value = reward + (1 - done) * gamma * target q min 


# 如 果 done==1， 则 只 有 reward ff 





























在 计算 Q 值 之 后 ， 训 练 Q 网 络 就 很 简单 了 。 




















q input = tf.concat([state, action], 1) 
with tf.GradientTapeQ as q1 tape: 
predicted q valuel = self.soft q neti(q input) 
q value loss1 = 
tf.reduce mean(tf.losses.mean squared error(predicted q valuel, 
target q value)) 
q1 grad = ql tape.gradient(q value lossl1, self.soft. q netl.trainable weights) 
self.soft q optimizerl.apply. gradients(zip(ql. grad, 
self.soft q netl.trainable weights)) 
with tf.GradientTape() as q2 tape: 
predicted q value2 - self.soft q net2(q input) 
q value loss2 - 
tf.reduce mean(tf.losses.mean squared error(predicted q value2, 
target q value)) 
q2. grad = q2 tape.gradient(q value loss2, self.soft q net2.trainable weights) 
self.soft q optimizer2.apply. gradients(zip(q2. grad, 
self.soft q net2.trainable weights)) 








1x HL TRE dL ACA TUT IROL. XE SC HER ERG AY PAI SR SR OR 88 99 [RH SF A 
之 间 的 权衡 达到 最 佳 。 





# 训练 策略 网 络 
with tf.GradientTape() as p_tape: 
new_action, log_prob, z, mean, log_std = self.policy_net.evaluate(state) 


样本 数量 





new q input = tf.concat([state, new action], 1) £ % 0 # 





predicted new q value = tf.minimum(self.soft q neti(new q input), 


self.soft q net2(new q input)) 





# predicted new q value = self.soft q netl(new q input) 
policy loss = tf.reduce mean(self.alpha * log. prob - predicted new q value) 


p_grad = p. tape.gradient(policy loss, self.policy net.trainable weights) 
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self.policy_optimizer.apply_gradients(zip(p_grad, 
self.policy net.trainable weights)) 











An. RITE UE UA BUS AL alpha 和 目标 网 络 。 








# 更 新 alpha 





化 a 值 ) 之 间 的 





# alpha: RZ RAKHI) 
if auto_entropy is True: 

with tf.GradientTape() as alpha tape: 

alpha loss = -tf.reduce mean((self.log alpha * (log. prob + 
target entropy))) 

alpha. grad = alpha tape.gradient(alpha. loss, [self.log_alpha]) 

self.alpha optimizer.apply gradients(zip(alpha grad, [self.log_alpha])) 

self.alpha - tf.math.exp(self.log alpha) 
else: £ 固定 alpha ff 
self.alpha = 1. 
alpha_loss = 0 





self.target_soft_q_netl = self.target soft update(self.soft q netl, 
self.target soft q netl, soft tau) 

self.target soft q net2 = self.target soft update(self.soft q net2, 
self.target soft q net2, soft tau) 




















训练 的 主 循环 和 TD3 一 样 ， 先 建立 环境 和 智能 体 。 














# AH 
env = gym.make(ENV_ID) .unwrapped 


State dim = env.observation_space.shape[0] 


action dim = env.action_space.shape[0] 
(fF, [-action range, action range] 





action range = env.action space.high # %57 





# 设置 随机 种 子 ， 方 人 
env.seed(RANDOM SEED) 
random.seed(RANDOM SEED) 
np.random. seed (RANDOM_SEED) 
tf.random.set seed(RANDOM SEED) 
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replay buffer = ReplayBuffer(REPLAY BUFFER SIZE) 
# 初始 化 智能 体 
agent = SAC(state_dim, action_dim, action_range, HIDDEN_DIM, 

replay buffer, SOFT Q LR, POLICY LR, ALPHA LR) 
tO = time.time() 






































之 后 ， 使 用 智能 体 和 环境 交互 ， 并 存储 用 于 更 新 的 采样 数据 。 在 第 一 次 更 新 之 前 ， 用 随机 动 
作 来 采集 数据 。 






































ay 





# yl 





if args.train: 
frame_idx = 0 
all_episode_reward = [] 
需要 进行 一 ) 


# model.forward & 






state = env.reset().astype(np.float32) 
agent.policy_net([state]) 


for episode in range(TRAIN EPISODES): 
State - env.reset().astype(np.float32) 
episode. reward = 0 
for step in range(MAX STEPS): 
if RENDER: 
env.render() 
if frame idx » EXPLORE. STEPS: 
action - agent.policy net.get action(state) 
else: 
action = agent.policy net.sample action() 
next state, reward, done, _ = env.step(action) 
next state - next state.astype(np.float32) 
done - 1 if done is True else 6 
replay buffer.push(state, action, reward, next state, done) 
State - next state 
episode reward += reward 


frame idx += 1 














x 
As 


到 足够 的 数据 后 ， 我 们 可 以 开始 在 每 步 进行 更 新 。 
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6.5 ”代码 例子 





if len(replay buffer) > BATCH SIZE: 
for i in range(UPDATE ITR): 
agent .update( 
BATCH_SIZE, reward_scale=REWARD_SCALE, 
auto_entropy=AUTO_ENTROPY, 


target entropy--1. * action dim 


) 


if done: 


break 

















通过 上 述 步 又 
示 训 练 过 程 


Eo 


























， 智 能 体 就 可 以 通过 不 断 更 新 变 得 越 来 越 强 了 。 增 加 下 面 的 代码 可 以 更 好 地 显 


























if episode == 0: 





all episode reward.append(episode. reward) 
else: 


all episode reward.append(all episode reward[-1] * 0.9 + episode reward * 
0.1) 


print( 


’Training | Episode: {}/{} 


| Episode Reward: {:.4f} 
{:.4£}’ .format( 


| Running Time: 


episode+1, TRAIN_EPISODES, episode_reward, 
time.time() - td 








最 后 ， 存 储 模型 并 且 绘制 学 习 曲 线 。 




















agent.save() 





plt.plot(all episode reward) 
if not os.path.exists(’ image’): 
os.makedirs(’ image’) 


plt.savefig(os.path.join('image', 'sac.png')) 
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这 个 部 分 介绍 了 一 些 深度 强化 学 习 的 研究 课题 ， 
者 非常 有 用 。 我 们 首 
Efficiency) 、 学 习 稳 定性 (Learning Stability) ~ "XX 


























介绍 了 几 个 深度 强化 学 习 的 




















这 些 内 容 对 希望 深入 理解 相关 研究 方向 的 读 
EE 大 挑战 ， 包 括 采 样 效 率 (Sample 


EHE (Catastrophic Interference) 、 探 索 








(Exploration). 76^*2] (Meta-Learning) 与 表征 学 习 (Representation Learning)、 多 智能 体 强化 学 
2] (Multi-Agent Reinforcement Learning)、 模 拟 到 现实 (Simulation-to-Reality, Sim2Real), LAK 
大 规模 强化 学 习 CLarge-Scale Reinforcement Learning) 。 然 后 我 们 用 6 个 章节 来 介绍 不 同 的 前 沿 











Y, 








示范 例子 ， 
basedRL)， 它 也 能 
习 是 一 个 非常 有 前 景 的 研究 方向 ， 有 很 多 面向 现实 应 
化 学 习 (Hierarchical Reinforcement Learning)， 用 以 解决 深度 强 
并 提高 学 习 效率 。 这 个 章节 还 介绍 了 一 些 框架 和 封建 
Learning) 方法 。 第 11 章 介 绍 了 多 


的 问题 ， 











f 究 挑战 的 细节 ， 以 及 目前 的 解 妇 











方法。 从 而 























助 减 缓 强化 学 习 ! 













































































究 角 度 来 看 ， 很 多 经 典 的 方法 都 包含 在 这 7 个 章节 


























第 8 章 较 为 全 面 地 介绍 了 模仿 学 习 〈Imitation Learning )。 模 仿 学 习 在 学 习 过 程 中 利用 专家 的 













































































Anab 

















He 








低 采 样 效率 的 问题 。 第 9 章 介 绍 了 基于 模型 的 强化 学 习 (Model- 
月 于 提升 学 习 效率 ,但 这 系列 方法 需要 学 习 对 环境 的 建 模 。 基 于 模型 的 强化 学 









































1H] B 2 














体 强 化 学 习 的 概念 ，/ 





究 内 容 。 第 10 章 介 绍 了 分 层 强 
化 学 习 中 灾难 性 遗忘 和 难以 探索 











出 强化 学 习 (Feudal Reinforcement 
以 把 强化 学 习 拓 展 到 多 个 智能 体 











E. 不 同 智 能 体 之 间 的 竞争 (Competitive) HME (Collaborative), tiy (Nash Equilibrium) 
:这 个 章节 中 介绍 。 第 12 章 介绍 了 深度 强化 学 习 的 并 生 


和 一 些 多 智能 体 强 
计算 (Parallel Computing), H 
这 章 介 绍 了 不 同 的 3 
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化 学 习 的 内 容 细节 
有 以 解决 可 扩展 性 挑战 (Scalability Challenge)， 以 提升 学 习 的 速度 。 
帮助 大 家 把 深度 强化 学 习 用 寺 
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zx 11 
































现实 世界 中 的 大 规模 问题 。 














PRE EAC 2] APE 























本 章 介 绍 了 现 有 深度 强化 学 习 研 究 和 应 用 中 的 挑战 ， 包 括 : (1) 样本 效率 问题 ; (2) 训练 稳 
EE G) 灾难 性 遗忘 问题 ，(4) 探索 相关 问题 ，(5) 元 学 习 和 表示 学 习 对 于 强化 学 习 方法 的 





跨 任务 泛 化 性 能 ; 



























































(6) 有 其 他 智能 体 作 为 环境 一 部 分 的 多 智能 体 强 化 学 习 ; CI) 通过 模拟 到 现实 





迁移 来 弥补 模拟 环境 和 现实 世界 间 的 差异 ;(8) 对 大 规模 强化 学 习 使 用 分 布 式 训练 来 缩短 执行 时 
间 ， 等 等 。 本 章 提出 了 以 上 挑战 ， 并 介绍 了 一 些 可 能 的 解决 方案 和 研究 方向 ， 来 引出 本 书 第 二 个 


板块 的 前 沿 主题 ， 









































从 第 8 章 到 第 12 章 ， 给 读者 提供 关于 深度 强化 学 习 现 有 方法 的 缺陷 、 近 来 发 








展 和 未 来 方向 的 相对 全 面 的 理解 。 


71 ”样本 效率 























强化 学 习 中 一 个 样本 高 效 (Sample-Efficient， 或 称 数 据 高 效 ，Data-Efficient〉 的 算法 意味 着 
这 个 算法 可 以 更 好 地 利用 收集 到 的 样本 ， 从 而 实现 更 快速 的 策略 学 习 。 使 用 同样 数量 的 训练 样本 


























《比如 按 强 化 学 习 中 的 时 间 步 来 统计 )， 相 比 于 其 他 样本 低 效 的 方法 ， 一 个 样本 效率 高 的 方法 可 以 
























































在 学 习 曲 线 或 最 终结 果 上 表现 得 更 好 。 以 Pong 游戏 为 例 ， 一 个 普通 人 可 能 通过 几 十 次 尝试 就 基 
本 掌握 游戏 规则 并 取得 较 好 的 分 数 。 然 而 ， 对 于 现 有 的 强化 学 习 算 法 (尤其 是 无 模型 的 方法 ) 而 























言 ， 它 可 能 需要 成 百 上 干 个 样本 来 逐渐 学 到 一 些 有 用 的 策略 。 这 构成 了 强化 学 习 中 的 一 个 关键 问 
题 : 我 们 如 何 为 智能 体 设计 更 有 效 的 强化 学 习 算法 ， 从 而 用 更 少 的 样本 更 快 地 学 习 ? 


这 个 问题 的 
至 目前 即使 在 模拟 环境 中 的 交互 也 需要 一 定 的 时 间 和 能 源 上 的 消耗 。 多 数 现 有 强化 学 习 算 法 在 解 







































































重要 性 主要 是 由 于 实时 或 现实 世界 中 的 智能 体 与 环境 交互 往往 有 较 大 的 代价 ,其 






























































决 大 规模 或 连续 空间 问题 时 有 较 低 的 学 习 效 率 ， 以 至 于 一 个 典型 的 训练 过 程 即 使 有 着 较 快 的 模拟 
速度 在 当前 计算 能 力 下 也 需要 难以 忍受 的 等 待 时 间 。 对 于 现实 世界 的 交互 过 程 情况 可 能 更 糟 ， 一 
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些 潜在 的 问题 ， 


























比如 时 间 消 耗 、 设 备 损耗 、 强 化 学 习 探索 过 程 中 的 安全 性 和 失败 蛋 
都 对 实践 中 强化 学 习 算 法 的 学 习 效 率 提 

















提高 数据 使 用 效率 ， 一 方面 需要 包含 有 用 信息 











HH 了 更 高 的 要 求 。 
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中 更 高 效 提取 信息 的 方式 。 从 这 两 方面 出 发 ， 现 有 文献 
。 从 专家 示范 (Expert Demonstrations) 中 学 习 。 这 个 想法 需要 

















训练 样本 ， 实 际 上 属 


























选择 ， 而 且 学 习 一 个 能 解 世 





























的 先 验 知识 ， 另 一 方面 需要 能 够 从 可 获得 数据 
有 许多 方式 解决 学 习 效率 的 问题 : 


4 况 下 的 风险 等 ， 


























一 个 很 有 前 景 的 研究 
来 缓解 强化 学 习 低 学 





























个 专家 来 提供 有 高 奖励 值 的 
于 模仿 学 习 〈Imitation Learning) 的 范畴 。 它 尝试 不 仅 模仿 专家 的 动作 
未 见 过 情况 的 泛 化 策略 。 模 仿 学 习 和 强化 学 习 的 结合 实际 上 是 


























领域 ， 在 近 几 年 来 被 广泛 研究 ， 并 应 用 于 如 围棋 游戏 、 机 器 人 学 习 等 ， 





习 效率 的 问题 。 








从 专家 示范 中 学 习 的 关键 是 从 可 获得 的 示范 数据 

















将 其 用 于 更 广泛 的 情 


。 基 于 模型 (Model-Based) 的 强化 学 习 而 
介绍 的 ， 一 个 基于 模型 的 强化 学 习 方法 一 般 指 智能 体 不 仅 学 会 一 个 预测 














况 。 




















且 学 习 一 个 环境 的 模型 来 辅助 其 动作 规划 ， 





少 奖 励 作 为 其 动作 的 








反馈 。 

















» 











提取 能 生成 好 的 动作 的 潜在 规则 ， 并 









































其 动作 的 策略 ， 而 
忆 此 可 以 加 速 策略 学 习 的 速度 。 环 境 的 模型 基 
本 包括 两 个 子 模型 : 一 个 是 状态 转移 模型 (State Transition Model)， 它 可 以 给 出 智能 体 做 出 
动作 后 的 状态 变化 ， 一 个 是 奖励 模型 (Reward Model), “EY 


不 是 无 模型 (Model-Free) 强化 学 习 。 如 前 面 章 节 所 















































定 了 智能 体能 从 环境 中 得 到 多 























学 习 准确 的 环境 模型 可 以 为 更 好 地 评估 智能 体 的 当前 策略 提供 额外 信息 ， 而 这 可 以 使 整个 








学 习 过 程 更 高 效 。 然 





经 常会 有 模型 偏差 (Model Bias) 的 问题 ， 

















而 ， 基 于 模型 的 方法 有 它 自 己 的 缺点 ， 比 如 ， 实 践 中 ， 基 于 模型 的 方法 






































模型 能 准确 地 刻画 真 









































即 实际 模型 基本 不 准 




















可 能 会 产生 问题 。 

















举例 来 说 ， 一 种 基 汪 





参数 化 的 概率 模型 高 斯 过 程 来 近似 环境 的 动力 学 模型 。 它 利用 了 高 斯 过 程 简 


实 环境 ， 但 是 对 于 模型 只 























即 基于 模型 的 方法 经 常 固有 地 假设 学 习 到 的 环境 

















能 从 少量 样本 中 学 习 的 情况 ， 这 往往 不 成 立 ， 

















确 。 在 真实 环境 中 ， 当 策略 基于 不 准确 或 者 有 偏差 的 模型 进行 学 习 时 


模型 的 高 效 强化 学 习 算法 叫 PILCO (Deisenroth et al., 2011)， 它 应 用 非 














过 程 来 有 效 地 学 习 模型 ， 而 不 是 采用 神经 网 络 拟 合 。 策 略 评估 和 改进 是 基于 月 











型 。 对 于 现实 世界 




































































单 直接 的 求解 
































[学 的 概率 模 





一 个 推 车 双 钟 摆 上 翻 CCart-Double-Pendulum Swing Up) 任务 ，PILCO 
方法 用 仅 20 到 30 次 尝试 就 能 学 会 一 个 控制 的 有 效 策略 ， 而 其 他 方法 像 多 层 感知 机 可 能 最 














试 的 样本 来 学 习 一 个 动力 学 模型 。 然 而 ， 











题 ， 比 如 ， 由 于 学 习 




















策略 参数 是 一 个 非 凸 优 














PILCO 方法 也 有 它 自己 的 问 























且 高 斯 过 程 的 求解 无 法 扩展 到 复杂 模型 的 高 维 参 数 空间 上 。 











通过 解决 存在 的 缺陷 来 设计 更 加 高 效 的 学 习 算法 。 上 述 两 种 方法 尝试 通过 利 


解决 学 习 效 率 问 题 ， 

















化 问题 ， 难 以 保证 能 搜索 到 最 优 控制 方式 ， 而 


























额外 信息 来 


如 专家 示范 数据 和 环境 建 模 信 息 。 如 果 没 有 额外 信息 可 以 利用 或 环境 

















的 动态 模型 难以 准确 





学 到 ， 那 么 我 们 就 应 该 改进 算法 本 身 的 学 习 效 率 而 不 利 






































用 额外 信息 。 


强化 学 习 算法 根据 它们 的 更 新 方式 一 般 分 为 两 类 : 在 线 策略 COn-Policy) 和 离线 策略 〈O 企 - 


7.1 样本 效率 





Dee oe He 


Policy)， 如 之 前 章节 





大 的 方差 〈Variance)， 而 离线 策略 方法 可 以 利 


方差 。 


近年 来 ， 更 加 先进 和 有 效 算 法 被 不 断 提出 。 多 数 算法 是 针对 一 些 传统 算法 




















中 所 介绍 的 。 在 线 策略 方法 对 策略 的 评估 有 较 小 的 人 




















mÆ (Bias) 但 有 较 


























一 个 较 大 的 随机 采样 批 来 实现 较 小 的 估计 

















的 特定 缺陷 。 








比如 ， 为 了 减 小 策略 梯度 的 方差 ，Critic 网 络 被 引入 来 估计 ActorCritic 的 动作 -价值 函数 


CAction-Value Function); 为 了 将 强化 学 习 和 有 





























经 网 络 来 改进 


> 





























使 
SACO 对 策略 的 概率 分 布 采 月 


IEZ, RER 











基于 表格 (Tabular-based) 的 Q-Learni 
最 大 化 算 子 造成 的 过 估 1 
于 参数 噪声 的 Noisy DON kte y 


十 问题 ， 


Double DON 算法 使 月 























E 务 从 小 规模 扩展 到 大 规模 ，DQN 采用 了 深度 
ng 算法 ; 为 了 解决 DQN 更 新 规则 ， 
明了 一 个 额外 的 Q 网 络 ， 为 了 促 
性 Actor-Critic (Soft ActorCritic， 缩 写 为 






































Ly F | 
ODs OS 











出 ; 为 了 稳定 DDPG RRRA, 354 
提出 用 额外 的 网 络 和 延迟 更 新 的 方式 来 优化 策略 ， 为 了 确保 在 线 策略 强化 学 习 策 略 优化 的 





Ae Ds 为 了 将 DON 方法 从 只 能 解决 离散 人 
角 定 性 策略 梯度 算法 〈Deep Deterministic Policy Gradient， 缩 写 为 DDPG) 被 提 














E 务 扩展 到 连续 








E 延 迟 DDPG (Twin Delayed DDPG, 缩写 为 TD3) 
































安全 更 新 ， 基 于 信赖 域 的 算法 像 信赖 域 策 
H: WY Ay TRPO 二 阶 优化 方法 的 计算 时 i 











写 为 TRPO) 被 提 H 





各 优化 算法 (Trust Region Policy Optimization， 缩 
司 ， 近 端 策略 优化 (Proximal 




















Policy Optimization， 缩 写 为 PPO ) SHEA} 














妹子 化 信赖 域 和 
Region, 缩写 为 ACKTR ) fë H 
方法 近似 逆 Fisher fà IB 











4 Kronecker 





— 











阵 ; 











强化 学 习 算 法 领域 发 








多 灵活 的 参数 可 以 被 自 适 
细致 的 考虑 。 有 时 额外 的 
感 ， 而 你 需要 对 有 具体 情况 
在 上 面 例子 中 , 我 们 假设 数 




































































其 他 缺陷 的 强化 学 习 算 法 。 与 此 








的 Actor-Critic 











] 一 阶 近似 ; 为 了 加 速 二 阶 自然 梯度 下 降 方法 , 使 
算法 〈Actor Critic Using Kronecker-Factored Trust 














在 二 阶 优化 过 程 
最 大 化 后 验 策 
tion, MPO) (Abdolmaleki et al., 2018) 算法 和 它 日 
一 种 “强化 学 习作 为 推理 ”的 观点 实现 策略 优化 。MPO 使 月 
算法 (Expectation Maximization, EM) (ttt KK 98455: 2] H 
展 的 一 小 部 分 ， 我 们 希望 读者 到 文献 
同时 ， 所 提 
点 地 学 习 或 人 为 选择 








超 参数 可 以 显著 改进 学 习 
KAT 
BRAC 





Ag 


AJ 














使 用 Kronecker 因子 化 (Kronecker-Factored ) 
咯 梯度 (Maximum A Posteriori Policy Optimiza- 
A EZ TRIS AE V-MPO (Song et al., 2019) 用 
概率 推理 工具 ， 像 期 望 最 大 化 
标 。 以 上 的 算法 只 是 整个 
查找 更 多 改进 算法 学 习 效率 和 
出 的 强化 学 习 算 法 结构 变 得 越 来 越 复 杂 ， 有 更 
， 而 这 需要 在 强化 学 习 研究 中 对 其 进行 更 加 
表现 ， 但 有 时 它们 使 得 学 习 过 程 更 加 敏 






















































































































































































， 而 只 是 强化 学 习 算 法 的 学 习 效率 较 低 。 实 





A 



































践 中 ,经 常见 到 档 
表示 任务 成 ] 
0, 从 而 没有 任 


没有 任 





, 



































可 











本 缺乏 有 用 
功 与 否 的 情况 来 ; 
区 分 度 。 这些 样本 中 的 信息 








言 息 的 情 


Wb, 尤其 


























是 稀 玻 奖励 的 任务 。 比 如 , 对 于 单个 二 值 变 量 











里 





MEET 





ZI 











rai 


能 全 部 都 是 直接 奖励 (Immediate Reward) 值 为 
































自然 就 很 稀 玻 。 像 这 样 的 情况 , 在 没有 充分 的 奖 






































励 函 数 指引 的 情况 下 ， 有 效 探索 空间 的 方式 可 能 就 很 关键 。 像 后 见 之 明 经 验 
Experience Replay) (Andrychowicz et al., 2017)， 分 层 学 习 结 构 ( 
励 (Intrinsic Reward) (Sukhbaatar et al., 2018). Ef 
Hl] (Houthooft et al., 2016) 都 被 月 














他 有 效 的 探索 机 





口 





Ee 

放 (Hindsight 
Kulkarni et al., 2016) P] TE 
区 使 的 探索 (Pathak et al., 2017) 和 其 


昌 于 一 些 工作 中 。 强 化 学 习 中 的 学 习 效率 由 
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于 强化 学 习 的 固有 怕 
样本 而 提高 从 样本 中 学 习 的 效率 。 

















FE 质 被 探索 过 程 显著 地 影响 ， 而 有 效 的 探索 可 以 通过 采集 到 更 有 信息 的 


























小 节 之 一 中 被 单独 讨论 。 


7.2 ”学 习 稳定 性 


深度 强化 学 习 可 能 非常 不 稳定 或 有 随机 性 。 这 里 的 “不 稳定 ” 指 ， 在 多 次 训练 中 ， 每 次 学 习 
表现 在 随时 间 变 化 的 横向 比较 中 的 差异 。 随 时 间 变 化 的 不 稳定 ， 学 习 过 程 体现 为 有 巨大 的 局 部 方 
差 或 在 单 次 学 习 曲 线 上 的 非 单调 增长 ， 比 如 有 时 学 习 表现 甚至 由 于 某 些 原因 会 下 降 。 在 多 次 训练 



























































对 比 中 的 巨大 方差 。 















































1 于 探索 是 强化 学 习 中 的 另 一 个 巨大 挑战 ， 它 将 在 后 续 































































































中 ， 不 稳定 的 学 习 过 程 体现 为 在 每 一 个 阶段 上 的 多 次 学 习 表 现 之 间 的 巨大 差异 ， 而 这 将 导致 横向 








深度 神经 网 络 的 不 稳定 性 和 不 可 预测 性 在 深度 强化 学 习 领 域 被 进一步 加 剧 ， 移 动 的 目标 分 























布 、 数 据 不 满足 独立 同 分 布 条 件 、 对 价值 函数 的 不 稳定 的 有 偏差 估计 等 因素 导致 了 梯度 估计 器 中 


的 噪声 ， 而 进一步 造成 不 稳定 的 学 习 表现 。 不 同 于 监督 学 习 在 固定 的 数据 集 上 学 习 〈 这 里 不 考虑 
批 限制 的 强化 学 习 )， 强 化 学 习 经 常 是 从 高 度 相 关 的 样本 中 学 习 的 。 比 如 ， 学 习 智 能 体 大 多 采用 
策略 探索 得 到 的 样本 ， 要 么 是 用 在 线 策 略 学 习 的 当前 策略 ， 要 么 是 离线 策略 学 习 的 先前 策略 〈 有 
时 甚至 是 其 他 策略 )。 智 能 体 和 环境 之 间 连 续 交 互 产生 的 样本 可 能 是 高 度 相 关 的 ， 











































































































这 打破 了 有 效 


学 习 神 经 网 络 的 独立 性 条 件 。 由 于 价值 函数 是 由 当前 策略 选择 的 轨迹 估计 的 ， 价 值 函数 和 估计 它 









































的 策略 之 间 也 有 依赖 关系 。 

















I 于 策略 随 训练 时 间 改 变 ， 参 数 化 的 价值 函数 的 优化 流 形 也 随时 间 改 

















变 。 考 虑 到 为 了 便于 在 训练 中 探索 ， 策 略 往往 具有 一 定 的 随机 性 ， 价 值 函数 于 是 更 加 难以 追寻 ， 



























































差 本 身 也 不 稳定 的 时 候 。 



































而 这 也 会 导致 用 来 学 习 的 数据 不 满足 独立 同 分 布 条 件 。 不 稳定 的 学 习 过 程 主要 是 
值 函数 估计 的 变化 造成 的 。 然 而 ， 有 偏差 估计 是 强化 学 习 : 


进行 的 无 偏差 估计 ， 可 羔 


























1 策略 梯度 或 价 






























































举例 来 说 ， 回 想 第 2 章 ， 为 了 实现 用 Q*(s, a) 对 动作 价 



























































不 稳定 表现 的 另 一 根源 ， 尤 其 是 当 偏 








由 函数 Q (s, a) 

















FRAMAR (Compatible Function Approximation Condition) 需要 被 
满足 。 同 时 ， 有 一 些 其 他 条 件 来 确保 价值 函数 的 无 偏差 估计 ， 以 及 一 些 进一步 的 要 求 条 件 来 保证 





高 级 强化 学 习 算法 对 策略 改进 有 正确 且 准确 的 梯度 计算 。 然 而 ， 实 践 中 ， 这 些 要 求 或 条 件 经 常 被 
放宽 ， 而 导致 对 价值 函数 的 不 稳定 有 偏差 估计 ， 或 者 策略 梯度 中 较 大 的 方差 。 多 数 情况 下 ， 人 们 






























































讨论 强化 学 习 算法 中 估计 的 偏差 和 方差 之 间 的 权衡 ,而 不 稳定 的 偏差 项 本 里 也 可 外 



































上 促成 不 稳定 的 


学 习 表 现 。 也 有 一 些 其 他 因素 会 导致 不 稳定 的 学 习 表 现 ， 比 如 探索 策略 中 的 随机 性 、 环 境 中 的 随 





























机 性 、 数 值 计 算 的 随机 科 
论文 (Houthooft et al 
作为 一 种 应 用 于 一 般 强 化 学 习 算 法 中 的 探索 方式 。 一 些 学 习 表 现 展示 于 他 们 所 做 的 算法 比较 中 ， 






































h 子 等 。 






































., 2016) 提出 了 以 Variational Information Maximizing Exploration ( VIME) 


























在 三 种 不 同 的 环境 上 使 用 








TRPO 或 TRPO+VIME 算法 的 学 习 结 果 基 本 上 在 学 习 | 





线 上 都 显示 出 








了 较 大 的 方差 ， 如 图 7.1 所 示 。 对 于 环境 MountainCar 来 说 ，TRPO 算法 的 学 习 
































线 能 够 覆盖 整 























个 奖励 值 范 围 [0, 1]， 而 且 对 TRPO+VIME 方法 在 HalfCheetah 环境 也 是 类 似 的 情况 。 我 们 需要 注 
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意 相 比 于 其 他 一 些 强化 学 习 算 法 ，TRPO 在 多 数 情况 下 已 经 是 一 个 相对 稳定 的 算法 ， 它 使 用 对 梯 


度 下 降 的 二 阶 优化 和 信赖 域 限 制 。 
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其 他 算法 像 DDPG 可 能 在 训练 过 程 中 表现 得 更 加 不 稳定 ， 有 了 品 

















声 的 探索 甚至 可 能 在 训练 了 较 长 一 段 时 间 后 显著 降低 学 习 表现 (Fujimoto et al., 2018)。 
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(a) MountainCar 


图 71 VIME 实验 中 




















(b) HalfCheetah (c) CartPoleSwingup 





的 学 习 曲 线 。 图 片 改编 自 文献 (Houthooft etal, 2016) ( 见 彩 插 ) 















































yu 








强化 学 习 过 程 中 的 随机 性 会 给 准 而 


获得 平均 结果 的 重要 性 。 











稳定 性 和 敏感 性 相关 的 结论 : 
。 策 略 网 络 结构 可 以 对 TRPO 和 DDPG 算法 的 结果 有 显著 影响 。 

网 络 的 隐藏 层 ，ReLU 或 Leaky ReLU 激活 函数 往往 在 多 个 环境 和 多 个 

算法 上 有 最 好 的 表现 。 而 这 个 效果 的 大 小 对 不 同 算法 或 环境 不 一 致 。 

不 同 环境 和 不 同 缩放 值 不 一 致 。 














。 对 于 策略 网 络 或 价值 














。 奖励 值 缩 放 的 效果 对 


SAE Re 








现 带 来 困难 ， 而 这 也 显示 出 使 E 不 同 随机 种 子 
































先前 关于 强化 学 习 的 调研 (Henderson et al., 2018) 中 给 出 了 一 些 关 于 深度 强化 学 习 实 验 中 不 
























































5 个 随机 种 子 ( 通 常 的 报告 设置 ) 可 能 不 足以 论证 显著 的 结果 ， 因 为 如 果 你 仔细 挑选 随机 种 








子 ， 不 同 的 随机 种 子 
环境 动态 的 稳定 性 可 








IU] 


可 能 
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Hes 








mg 3 



























































到 完全 不 重合 的 置信 区 间 ， 即 使 采用 完全 相同 的 实现 方式 。 
影响 强化 学 习 算法 的 学 习 表现 。 比 如 ， 一 个 不 稳定 的 环境 可 以 

















迅速 削弱 DDPG 算法 的 有 效 学 习 表 现 。 
人 们 已 经 有 很 长 一 段 时 间 在 尝试 解决 强化 学 习 中 的 稳定 性 问题 。 为 了 解决 累计 奖励 函数 在 原 
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3 REINFORCE 算法 中 的 较 大 方差 ， 价 值 函数 拟 合 被 引入 来 估计 奖励 值 。 进 一 步 地 ， 动 作价 值 函 
数 也 被 用 于 奖励 函数 近似 ， 这 降低 了 方差 ， 即 使 它 可 能 是 有 偏差 的 。 像 这 样 方法 构成 了 深度 强化 



































学 习 算 法 的 主流 一 一 结合 Q-Learning 和 策略 梯度 (Policy Gradient) 方法 ， 如 之 前 第 6 章 中 所 介 
绍 的 。 在 原始 DQN (Mnih et al., 2013) : 



























































， 使 用 目标 网 络 和 延迟 更 新 ， 以 及 经 验 回放 池 帮 助 缓解 了 


























不 稳定 学 习 的 问题 。 通 常 一 个 深度 函数 拟 合 器 需要 多 次 梯度 更 新 而 不 是 单 次 更 新 来 达到 收敛 ， 而 




















目标 网 络 给 学 习 过 程 提供 了 














个 稳定 的 目标 ， 这 有 助 于 在 训练 数据 上 收敛 。 在 某 种 程度 上 ， 它 可 
以 满足 同 分 布 条 件 ， 而 强化 学 习 在 没有 目标 网 络 时 会 将 其 打破 。 经 验 回放 池 给 DQN 提供 了 一 种 









































离线 策略 的 学 习 方 式 ， 而 从 回 


























放 池 中 随机 采样 到 的 训练 数据 更 接近 于 独立 同 分 布 数据 ， 这 也 有 助 




















于 稳定 学 习 过 程 。 更 多 关 了 








F DQN RJ 














节 在 第 4 章 中 有 所 介绍 。 此 外 ，TD3 算法 (在 第 6 章 中 介 
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第 7 章 深度 强化 学 习 的 挑战 

















绍 ) 在 DQN 的 稳定 技术 上 应 用 
基于 相似 动作 有 相似 值 的 平滑 ' 
时 












































fii] 











然而 ， 即 使 有 了 以 上 工作 ， 不 稳定 性 、 随 机 性 和 
研究 人 员 在 不 同 任务 上 评估 算法 和 复 现 结 


挑战 。 


73 WERS 


H 


，TD3 使 用 了 一 对 Critic 而 不 是 像 DDPG ! 
对 于 基于 策略 梯度 的 方法 来 说 ，TRPO 使 
对 更 新 后 策略 的 限制 来 保证 划 





标 策略 平滑 正则 化 (Target Policy Smooth Regularization) 方法 ， 





生 假设 ， 从 而 在 动作 目 









































保守 但 稳定 











] 二 阶 优化 通过 
的 进步 。 


标价 值 











的 估计 








加 入 噪声 ， 以 减 小 方差 。 同 








的 一 个 ， 而 这 进一步 稳定 了 学 习 表 现 。 另 一 方面 ， 












































HA 























有 














由 于 强化 学 习 通常 有 动态 的 学 习 过 程 而 非 像 监督 学 习 一 样 在 

















看 作 是 退 逐 一 个 移动 
了 在 线 策略 价值 函数 














3 





V 














目标 的 过 程 ， 





定 困难 ， 而 这 仍旧 是 强化 学 习 社 











的 信息 提供 更 稳定 的 更 新 ， 以 及 





对 初 值 及 超 参数 的 敏感 性 都 使 得 强化 学 习 





区 的 一 个 巨大 














而 数据 集 在 整个 过 程 不 断 被 更 新 。 比 如 ， 在 第 2 章 中 我 们 
(s) 和 动作 价值 函数 @r(s,a)， 它 们 都 是 用 当前 策略 r 来 估计 

















略 在 整个 学 习 过 程 : 
用 一 个 相对 稳定 的 训练 集 来 绥 
变 。 因 此 ， 一 个 叫 作 灾 难 性 遗志 

















解 这 个 问题 ， 








回放 池 ， 





都 在 更 新 ， 这 会 导致 对 价值 函数 的 动态 估计 。 尽 管 通过 离线 策略 
的 样本 仍旧 随 着 





























国定 的 数据 集 上 学 习 ， 它 可 以 被 
介绍 
的 。 但 是 策 
放 池 可 以 
而 不 断 改 









































口 





























智能 体 的 探索 过 程 





(Catastrophic Interference 或 Catastrophic Forgetting) (Kirkpatrick 





et al., 2017) 的 问题 可 能 在 学 习 过 程 ' 








方法 时 ， 这 个 问题 描述 了 其 在 解 














使 得 已 训练 过 的 网 络 改变 很 多 来 把 
化 学 习 方 法 : 
相 较 于 离线 策略 方式 ， 自 然 的 人 类 学 习 过 程 实际 更 接近 于 在 线 策略 学 习 。 
忆 中 学 习 。 然 而 ， 在 线 策略 强化 学 习 方 法 仍旧 
基于 信赖 域 的 方法 像 TRPO 和 PPO 对 学 习 过 程 ! 





些 内 容 也 是 有 用 的 。 这 是 在 强 




















地 学 习 新 事物 而 不 是 一 直 从 记 ! 
率 ， 并 且 企图 





























1j 








如 上 所 述 的 ] 
EE, AmS 








兽 量 学 习 过 程 ， 


RE, 尤其 是 当 策略 或 价值 函 














BEE 





经 网 络 的 深度 学 习 


>- 



























































防止 灾难 性 遗忘 的 问题 。 
略 的 潜在 范围 做 了 限制 ， 来 保证 稳定 但 相对 缓慢 的 学 习 表 现 进步 。 对 于 在 线 策 
是 使 了 灾难 性 遗忘 的 发 生 。 











使 














以 相关 联 数 据 的 形式 被 采集 ， 这 极 大 
验 回 放 池 来 缓解 这 个 问题 ， 从 而 在 某 种 程度 上 





Experience Replay) 和 后 见 之 



































的 方式 被 提出 ， 按 照 回放 池 ， 





数据 的 





























有 较 差 能 力 的 现象 。 新 的 数据 经 常 
记 网 络 在 之 前 训练 过 程 ! 
神经 网 络 做 拟 合 器 的 一 种 




















所 学 到 的 内 容 ， 即 使 这 
局 限 性 。 

人 们 每 天 都 在 实时 
在 努力 提高 学 习 效 
更 新 策 
名 学 习 ， 样 本 通常 
此 ， 离 线 策略 学 习 方法 使 用 经 
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使 用 不 同 的 损失 函数 ,而 且 损失 





pK 


数 可 能 不 总 











2019a) 中 ， 图 











像 观 察 量 被 嵌入 潜在 表示 而 作为 策 
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在 模拟 到 现实 的 适应 过 程 中 通过 一 个 自 监督 损失 











Pars. 
。 比 如 ， 在 模拟 到 现实 的 策略 迁移 过 程 
现实 世界 数据 微调 。 然而 , 实践 中 , 两 个 过 程 可 能 





宁 留 旧 数 据 来 学 习 。 像 优先 经 验 回放 (Prioritized 
明 经 验 回放 〈Hindsight Experience Replay) 的 技术 作为 更 复杂 和 先进 
EE 要 性 或 者 其 目标 来 使 
灾难 性 遗忘 也 发 生 在 学 习 过 程 分 为 几 个 阶段 的 情况 ! 
预 训 练 而 后 利 ) 











是 与 整体 强化 学 习 目 
略 的 输入 ， 这 个 
函数 来 微调 ， 而 非 使 用 原来 在 模拟 训练 过 程 ， 








标 一 致 。 如 在 文献 Jeong et al., 








MIRARE (Embedding Network) 














的 











强化 学 习 损 失 。 这 种 在 多 阶段 训练 过 程 损失 函数 上 的 不 匹 本 

















也 可 能 在 实践 








造成 灾难 性 遗忘 ， 这 





7.4 探索 














意味 着 策略 可 能 遗忘 预 训练 中 获得 的 技能 。 为 了 解决 这 个 问题 ， 固 定 部 分 网 络 层 并 用 之 前 的 损失 
函数 继续 更 新 网 络 可 以 在 后 训练 (Post-Training〉 过 程 中 尽 可 能 保持 预 训练 的 网 络 。 另 一 个 相似 
的 想法 是 残 差 策 略 学 习 (Residual Policy Learning)， 如 8.6 节 中 所 提 到 的 ， 它 也 固定 了 预 训 练 网 


























络 的 权 习 


7.4 


并 在 旁边 添加 了 一 个 新 的 网 络 来 学 习 修正 项 。 








探索 























探索 是 强化 学 习 中 另 一 个 主要 的 挑战 ， 它 会 显著 影响 学 习 效 率 。 相 比 于 探索 和 利用 间 的 权衡 


(Exploration-Exploitation Trade-Off〉 这 个 强化 学 习 中 经 典 且 为 人 所 知 问题 ， 这 里 着 重 于 探索 本 身 


的 挑战 。 






























































强化 学 习 中 探索 的 困难 可 能 来 自 稀疏 的 奖励 函数 、 较 大 的 动作 空间 和 不 稳定 的 环境 ， 以 























及 现实 世界 中 探索 的 安全 性 问题 等 。 探 索 意味 着 通过 交互 来 获取 更 多 关于 环境 的 信息 ， 通 常 与 利 











相对。 








— 


的 轨迹 在 之 前 被 探索 过 ， 和 否则 最 优 的 策略 无 法 被 学 到 。 举 例 来 说 ， 雅 达 利 游戏 像 OpenAI Gym ! 




















利用 指 通过 开发 已 知 信息 来 最 大 化 奖励 。 强 化 学 习 的 学 习 过 程 基于 试 错 。 除 非 那些 最 优 



































的 Montezuma’s Revenge. Pitfall 由 于 探索 的 困难 ， 对 于 一 般 强 化 学 习 算 法 会 很 难 解决 ， 这 几 个 游 
戏 的 场景 如 图 7.2 所 示 ， 其 中 通常 包括 一 个 复杂 的 迷宫 ， 需 要 较 复 杂 的 一 系列 操作 来 解决 。 它 们 
像 一 个 解 迷宫 的 问题 但 是 有 着 更 复杂 的 结构 和 层次 。Montezuma's Revenge 是 一 个 非常 典型 的 稀 












































玻 奖 励 任 务 ， 这 使 得 强化 学 习 的 探索 非常 难以 进行 。 在 一 个 游戏 场景 中 ，Montezuma's Revenge 的 
智能 体 必 须 完成 几 十 个 连续 动作 来 通过 一 个 房间 ， 而 这 个 游戏 有 23 个 不 同 的 房间 场景 需要 智能 







































































体 指 导 它 自己 通过 。 相 似 的 情况 在 Pitfall 游戏 中 也 有 。 这 些 游戏 常用 作 评 估 强 化 学 习 方法 在 探索 





























能 力 方 国 


的 基准 。OpenAI 和 Deepmind (Aytar et al., 2018) 都 声称 他 们 用 高 效 的 深度 强化 学 习 方 法 
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解决 了 Montezuma's Revenge 游戏 。 然 而 ， 这 些 结果 可 能 不 令 人 满意 。 在 他 们 的 解决 方案 中 ， 专 
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家 示范 都 被 用 于 辅助 探索 。 比 如 ， 在 Deepmind 的 解决 方案 中 ， 他 们 让 智能 体 观察 YouTube 视频 ， 











而 OpenAI 使 用 人 类 示范 来 更 好 地 初始 化 智 
这 里 稀 玻 奖励 任务 的 瓶颈 实际 在 卫 
不 平滑 且 非 凸 的 超 曲 面 上 优化 ， 






























































能 体位 置 。 
































策略 可 能 无 法 帮助 探索 到 更 高 
4» Ce-Greedy) 策略 ， 会 发 现 很 难 
(Near-Optimal) 的 轨迹 ， 基 于 价值 的 或 基于 策略 的 优化 方法 可 















































导致 天 败 情 况 或 者 缓慢 的 学 习 过 程 。 


























典型 的 例子 是 在 文献 (Vinyals et al., 2019) 








比较 了 雅 达 利 游戏 、 围 棋 和 《星际 争霸 》 的 信息 类 型 、 动 作 空间 、 游 戏 中 的 活动 次 数 和 玩家 数量 。 






































大 的 动作 空间 和 长 的 游戏 控制 序列 使 得 在 
玩家 的 设置 使 得 对 手 在 某 利 





















































探索 本 身 。 稀 玻 奖励 可 能 使 价值 网 络 和 策略 网 络 在 一 个 
甚至 在 训 ATH EHI IRE 的 情况 。 因 此 ， 一 步 优化 后 的 
奖励 的 区 域 。 基 于 传统 探索 策略 的 知 
在 探索 过 程 中 遇 到 高 奖励 值 的 轨迹 。 而 即便 它 个 


能 体 ， 比如 随机 动作 或 e- 贪 


] 采 样 到 近 最 优 














能 也 没有 对 这 些 样本 充分 重视 ， 而 
面 描述 的 问题 提出 了 当前 深度 强化 学 习 方法 的 缺陷 。 
除 稀 朴 奖励 外 ， 较 大 的 动作 空间 和 不 稳定 的 环境 也 对 强化 学 习 智 能 体 的 





探索 造成 困难 。 一 个 





中 解决 的 《星际 争霸 I》 (StarCraft) 游戏 。 表 7.11 中 
























































《星际 争霸 》 中 探索 一 个 好 的 策略 十 分 困难 。 此 外 ， 多 

















al 


程度 上 成 为 游戏 环境 上 





对 比 不 同 的 游戏 


雅 达 利 游戏 | 围棋 |《 星 际 争霸 》 

















的 一 部 分 ， 这 也 增加 了 探索 的 难度 。 














信息 类 型 


不 完美 





动作 空间 


1026 





每 场 游戏 的 活动 次 数 


1000/s 





玩家 数量 


为 了 解决 探索 的 问题 ， 
习 等 概念 。 通 过 模仿 学 习 ， 



























































性 结构 来 解决 Montezuma's Revenge, KILS 














使 的 探索 很 快 地 学 习 关于 世界 的 知识 。 




















智能 体 试图 模仿 来 自 人 类 或 其 他 的 专家 示范 来 改进 学 
索 到 近 最 优 样本 的 困难 。 内 在 奖励 是 基于 这 样 的 观念 ， 
到 内 在 欲求 的 驱使 ， 比 如 希望 获 千 




















多 个 





研究 人 员 调 查 了 包括 模仿 学 习 、 内 在 奖励 (Intrinsic Reward)、 分 层 学 














习 效 率 并 减少 探 


















































即行 为 不 仅 是 外 在 奖励 的 结果 ， 而 且 也 受 
租 关 于 未 知 的 更 多 有 效 信息 。 举 例 来 说 ， 婴 儿 
好 奇 心 是 一 种 内 部 驱动 来 改进 智能 体 的 学 习 ， 使 其 朝向 更 











可 以 通过 好 奇 心 驱 









































有 探索 性 的 策略 改进 。 更 多 的 内 部 驱动 力 需要 在 研究 中 探索 。 分 层 学 习 将 复杂 
分 解 成 小 的 子 任 务 ， 这 使 其 容易 学 习 。 
制 强 化 学 习 (Feudal Reinforcement Learning) 中 的 一 个 关键 方法 使 用 了 有 管 








举例 来 说 ， 封 建制 网 络 (Feudal Network, FuN) 作为 封建 
里 者 和 工作 者 的 层次 


































































































一 个 称 为 Go-Explore， 


























难以 探索 的 任务 





























更 有 效 的 探索 和 学 习 (Vezhnevets et al., 2017). 
近年 来 ， 一 些 新 方法 被 提出 来 解决 探索 问题 ， 划 


它 不 是 一 个 深度 强 


化 学 习 的 解决 方案 。Go-Explore 的 主要 想法 是 首先 使 用 无 神经 网 络 的 确定 性 训练 来 探索 游戏 世 

















界 ， 即 不 使 用 深度 强化 学 习 的 方法 ， 随 后 使 用 一 个 深度 神经 网 络 来 模仿 学 习 最 好 的 轨迹 ， 从 而 使 
































得 策略 能 够 对 环境 的 随机 愧 








Ee HE Jy T NEU 















































大 规模 高 度 复杂 游戏 ， 比 如 《星际 有 


霸 I》，DeepMind 











1 数据 源 : Oriol Vinyals, Deep Reinforcement Learning Workshop, NeurIPS 2019. 
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7.5 元 学 习 和 表征 学 习 





的 研究 人 员 (Vinyals et al., 2019) 使 用 了 基于 族 条 
有 效 探 索 全 局 最 优 策略 ，] 
布 中 的 不 同 集群 (Clusters) E, Se GR 





















































E 探 索 过 程 的 多 样 性 。 基 























策略 空间 有 更 充分 的 探索 。 
现实 世界 中 的 探索 也 与 安全 必 



































问题 相关 。 举 例 来 说 ， 当 考虑 一 











智能 体 控 制 的 自动 区 驶 车 
i 





的 训练 (Population-based Training, PBT) 机 制 来 
其 中 智能 体 集合 成 为 联盟 (League)。 不 同 的 智能 体 被 初始 化 到 策略 分 
的 训练 相 比 于 单个 智能 体 对 













































































辆 时 ， 有 和 车祸 的 失败 情况 也 是 智能 体 应 该 从 中 进行 学 习 的 。 但 是 现实 中 














辆 实际 的 车 不 可 能 被 用 






































zy 


来 采集 这 些 失 败 情况 的 样本 ， 而 使 智能 体 以 可 接受 的 低 损 耗 从 中 学 习 。 现实 的 车 辆 甚至 不 能 采用 























随机 动作 来 探索 ， 因 为 它 可 能 导致 灾难 性 的 结果 。 相 同 的 问题 也 存在 于 其 他 现实 世界 应 用 中 ， 比 







































































如 机 器 人 操作 、 机 器 人 手术 等 。 为 了 解决 这 个 问题 ， 模 拟 到 现实 的 转移 〈Sim-to-Real Transfer) 的 








方法 可 以 用 于 将 强化 学 习 部 署 到 现实 世界 ， 它 先 在 模拟 中 进行 训练 ， 昨 


7.5 ”元 学 习 和 表征 学 习 
































名 A 


将 集 略 转 移 到 现实 中 。 





除 改 善 一 个 具体 任务 








， 研 究 人 员 也 在 寻求 能 够 提高 在 不 同 任务 上 整体 学 习 于 








现 的 方法 ， 这 与 模型 的 通用 性 (Generalit 





y) AISNE (Versatility) 相关。 



































让 智能 体 基于 它 所 学 习 的 旧 
学 习 (Meta-Learning )、 表 和 














折 任 务 上 更 快 地 学 习 ? 而 在 这 旦 
FE 学习 (Representation Learning )、 迁 移 学 习 〈《Transfer Learning) 等 。 




















you 





对 此 ， 我 们 会 问 ， 如 何 











可 以 介绍 多 个 概念 ， 包括 元 


元 学 习 的 问题 实际 上 可 以 追溯 到 1980—1990 年 (Bengio et al., 1990)。 近 来 深度 学 习 和 深度 强 





nu 


化 学 习 重 新 将 这 个 问题 带 入 我 们 的 视野 。 许 多 令 人 兴 

















的 想法 被 提出 ， 比 如 那些 与 模型 无 关 的 元 


学 习 (Model-Agnostic Meta-Learning) 方法 ， 以 及 一 些 更 强大 的 跨 任务 学 习 方法 在 近年 来 都 有 快 











速 发 展 。 元 学 习 的 最 初 





























目的 是 让 智能 体 解决 不 同 问 题 或 掌握 不 同 技能 。 
每 个 任务 都 从 头 学 习 ， 尤 其 是 用 深度 学 习 来 拟 合 的 时 
习 , 是 让 智能 体 根据 以 多 




































































过 程 ， 而 元 学 习 者 (Meta-Learner 


通常 一 个 普通 的 学 习 者 学 习 





然而 ， 我 们 无 法 忍受 它 对 
Me. TOFS (Meta-Learning)， 也 称 学 会 学 
新 任务 上 更 快 学 习 的 方法 , 而 非 将 每 个 任务 作为 一 个 单独 的 任务 。 
被 看 作 是 元 学 习 中 的 内 循环 〈InnerLoop) 学 习 












































个 外 循环 COuter-Loop) 学 习 过 程 来 更 新 内 循环 学 

















习 者 。 这 两 种 学 习 过 程 











PERIA RENT 











三 个 元 学 习 的 主要 类 别 为 循环 


模型 (Recurrent Model), ZÆ (Metric Learning) 和 学 习 优化 器 COptimizer)。 结 合 元 学 习 和 





强化 学 习 ， 可 以 得 到 元 强化 学 习 (Meta-Reinforcement Learning) 方法 。 
法 像 与 模型 无 关 的 元 学 习 (Finn et al., 2017) 可 以 通过 小 样本 学 习 (Few-Shot Learning) 或 者 几 步 
更 新 来 解决 一 个 简单 的 新 人 

对 于 一 个 具体 的 任务 领域 ， 不 同 的 人 
从 这 个 域内 采样 到 的 一 些 任务 中 学 习 这 些 潜在 的 规 和 
来 更 快 地 学 习 ? 这 个 学 习 潜 在 的 关系 或 规 得 
(Bengio et al., 2013) 的 概念 密切 相关 。 表 行 
学 习 表 示 方 式 和 提取 有 效 信息 或 特 行 









































F 务 之 间 可 能 有 隐藏 的 关联 性 质 。 我 们 是 否 能 让 智能 
上 的 内 容 泛 化 到 其 他 任务 上 
的 过 程 与 一 个 叫 表 征 学 习 (Representation Learning 
上 ， 被 定义 为 从 原始 数据 ! 


























EE， 从 而 将 所 学 至 
































F 学 习 起 初 在 机 器 学 习 ， 





种 有 效 的 元 强化 学 习 方 











> 











VY 












































于 分 类 器 或 预测 器 《比如 强化 学 习 中 的 策略 使用。 于 














wi 
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征 学 习 试图 学 习 抽象 且 简 洁 的 














特征 来 表示 原始 材料 ， 并 且 通 过 这 种 抽象 ， 预 测 器 或 分 类 器 不 会 降 









































低 它们 的 表现 ， 而 


将 这 些 规律 迁移 有 利于 在 不 同 任务 上 的 学 习 过 程 。 表征 学 习 通 常 可 以 用 于 学 习 强 化 学 习 环 境 中 复 

State Representation Learning; SRL). XX ZR AS 
在 一 个 合适 的 抽象 空间 下 的 不 变性 和 独特 性 特征 ， 而 这 是 从 多 样 化 的 任务 域 中 提炼 出 来 的 。 举 例 
来 说 ， 在 一 个 拍摄 物体 运动 的 视频 的 一 系列 帧 中 ， 物 体 表 





















































更 高 的 学 习 效 率 。 学 习 隐 藏 的 表示 对 于 强化 学 习 中 提高 学 习 效 


























率 十 分 有 用 ， 









































杂 状 态 的 简单 表示 ， 这 被 称 为 状态 表征 学 习 《 


的 特殊 点 ) 集合 是 对 物体 运动 
































动 。 不 同 的 物体 有 不 同 的 关键 点 集合 ， 因 而 也 可 以 用 来 区 分 物体 。 强 化 学 习 中 的 表 和 
王 务 域 、 模 拟 到 现实 的 域 迁 移 等 。 它 是 一 个 有 希望 且 在 








跨 域 的 强化 学 习 策 


中 。 在 这 种 表示 方式 下 ， 这 些 关 键 点 的 位 置 帮 













































































外 角 上 的 关键 点 (或 者 物体 表面 上 其 他 























的 一 种 恒定 且 鲁 棒 的 表示 ， 尽 管 帧 中 的 像素 点 总 是 随 着 物体 运动 而 
改变 。 这 些 关 键 点 有 时 在 计算 机 视觉 术语 中 称 为 描述 器 〈Descriptors)， 它 们 存在 一 个 描述 器 空间 












































HAAR 


























探索 中 的 方向 ， 可 


分 


EE 要， 包括 不 同 的 



























































fH 


以 用 了 











究 人 类 是 如 何 利 用 知识 进行 规划 的 。 





7.6 ”多 智能 体 强化 学 习 

















FE 物体 运动 中 将 会 改变 ， 因 此 可 以 用 来 表示 物体 的 运 


F 学 习 对 需要 

















在 之 前 介绍 的 章节 中 ， 环 境 中 只 有 一 个 智能 体 来 寻找 最 优 策略 ， 这 属于 单 智能 体 强 化 学 习 。 
除 单 智 能 体 强化 学 习 外 ， 我 们 实际 可 以 在 同一 个 场景 中 设置 多 个 智能 体 ， 来 对 多 智能 体 策 略 进行 
同时 探索 ， 这 个 过 程 可 以 交替 或 者 同时 进行 ， 称 为 多 智能 体 强 化 学 习 《〈Multi-Agent Reinforcement 





Learning; MARL). MARL 是 一 个 有 希望 






















































































习 情 况 的 方式 ， 包 括 群 体 智 能 


























到 其 所 在 环境 的 限 


He 
现代 学 习 算 法 更 多 的 是 出 















































、 智 能 体 环境 的 动态 变化 、 智 能 体 本 身 的 创新 等 。 



































Dal o [^ 此 ， 

















值得 探索 的 方向 ， 提 供 了 一 种 能 够 研究 非常 规 强化 学 


色 的 受 试 者 (Test-Takers)， 而 非 创 新 者 。 智 能 体 的 智能 上 限 可 能 受 























创新 的 产生 成 为 人 工 智能 (Artificial Intelligence, AD 





















































中 一 个 较 热 


的 话题 。 一 种 通 向 这 个 愿景 的 最 有 希望 路 径 是 通过 多 智能 体 的 社会 交互 来 学 习 。 在 多 智能 体 学 习 





























， 智 能 体 如 何 击败 对 手 或 与 他 人 合作 不 是 由 环境 8 














的 发 明 者 从 未 定义 什么 策略 能 够 击败 对 手 ， 而 对 手 通常 也 构成 了 动态 环境 的 一 部 分 。 
体 的 自我 演化 过 程 中 ， 大 量 先 进 的 策略 被 发 明 出 来 ， 每 个 智能 体 作 


代 又 一 代 人 类 玩家 或 人 工 智 能 

















为 其 他 人 环境 的 一 部 分 ， 而 对 








MARL 中 结合 


et al., 2017; Nowé et al., 2012) 中 








传统 的 博弈 论 (Game Theory) 和 现代 深度 强 









































自身 的 提高 也 构成 他 人 的 新 挑战 。 





























的 建造 者 决定 的 。 举 例 来 说 ， 古 老 的 围棋 游戏 














然而 ， HU 








化 学 习 的 方法 近来 在 文献 (Lanctot 
了 所 探索 ， 以 及 一 些 新 的 想法 如 自我 博弈 〈Self-Play) (Berner 








et al., 2019; Heinrich et al., 2016; Shoham et al., 2003; Silver et al., 2018a)、 优 先 虚 拟 自 我 博弈 
(Prioritized Fictitious Self-Play) (Vinyals et al., 2019)、 基 于 族群 的 训练 (Population-Based Training, 


PBT) (Jaderberg et al., 2017; Vinyals et al., 2019) 和 独立 怕 











FE 强 化 学 习 (Independent Reinforcement 











Learning，InRL) (Lanctot et al., 2017; Tan, 1993)。MARL 不 仅 使 得 探索 多 智能 体 环境 中 的 分 布 




















式 智能 成 为 可 能 ， 











MAA BR 

















在 较 大 规模 复杂 环境 中 学 习 近 最 优 或 近 平衡 的 智能 体 











策略 ， 比 如 ， 






































Deepmind 用 于 掌握 游戏 《星际 争霸 ID) ff] AlphaStar， 如 图 7.3 所 示 。AlphaStar 的 框架 中 用 到 


246 

















7.7 模拟 到 现实 




















PBT， 通 过 使 用 一 个 联盟 〈League) 的 智能 体 ， 每 一 个 智能 体 由 图 7.3 中 一 个 带 索 引 值 的 色 块 来 
示 ， 这 种 训练 方式 被 用 来 保证 在 策略 空间 的 充分 探索 。 在 PBT 中 ， 策 略 优化 的 单位 不 再 是 每 
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9 能 体 的 单一 策略 ， 而 是 整个 联盟 的 智能 体 。 整 体 策略 不 仅 关于 一 个 具体 策略 ， 而 更 是 整个 联 
智能 体 的 整体 表现 。 更 多 关于 MARL 的 内 容 在 第 11 3 












































有 详细 介绍 。 
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图 73  AlphaStar 的 训练 机 制 。 每 个 小 方块 表示 一 个 AlphaStar 联盟 中 训练 的 智能 体 ( 见 彩 插 ) 





7.7 ”模拟 到 现实 


强化 学 习 方 法 可 以 成 功 地 解决 大 量 模拟 环境 中 的 任务 ， 甚 至 在 一 些 具 体 领域 可 以 超过 最 好 的 
人 类 表现 ， 比 如 围棋 游戏 。 然 而 ， 应 用 强化 学 习 方 法 到 现实 任务 上 的 挑战 仍旧 未 被 解决 。 除 了 雅 
达 利 游戏 、 策 略 性 计算 机 游戏 、 纸 牌 游戏 ， 强 化 学 习 在 现实 世界 中 的 潜在 应 用 包括 机 器 人 控制 、 
车 辆 自动 驾驶 、 无 人 机 自动 控制 等 。 这 些 涉及 现实 世界 中 硬件 的 任务 通常 对 安全 性 和 准确 性 有 较 
高 要 求 。 对 于 这 些 情况 ， 一 个 误 操 作 可 能 导致 灾难 性 后 果 。 当 策略 是 通过 强化 学 习 方法 学 到 的 时 
候 ， 这 个 问题 就 更 加 值得 考虑 ， 因 为 即便 不 考虑 现实 世界 的 采样 效率 ， 学 习 智 能 体 的 探索 过 程 也 
会 有 巨大 影响 。 现 代 工业 中 的 机 器 控制 仍旧 严重 依赖 传统 控制 方法 ， 而 非 最 先进 的 机 器 学 习 或 强 
化 学 习 解 决 方案 。 然 而 ， 用 一 个 聪明 的 智能 体 来 控制 这 些 物理 机 械 仍 旧 是 一 个 很 好 的 追求 ， 而 大 
量 相关 领域 的 研究 人 员 正 为 之 努力 。 

近年 来 ， 深 度 强化 学 习 被 逐渐 应 用 到 越 来 越 多 的 控制 问题 中 。 但 是 由 于 强化 学 习 算 法 较 高 的 
样本 复杂 度 以 及 其 他 一 些 物 理 限 制 ， 许 多 在 模拟 中 展示 的 能 力 尚未 在 现实 世界 中 复 现 。 我 们 主要 
通过 机 器 人 学 习 的 例子 来 展示 这 些 内 容 ， 而 这 是 一 个 越发 活跃 的 研究 方向 ， 吸 引 了 来 自学 术 界 和 
工业 界 的 关注 。 

指导 性 策略 搜索 (Guided Policy Search, GPS) (Levine et al., 2013) 是 一 种 能 够 直接 用 真实 机 器 
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人 在 有 限时 间 内 训练 的 算法 。 通 过 所 学 线性 动态 模型 进行 轨迹 优化 ， 这 个 方法 能 够 以 较 少 的 环境 
交互 学 会 复杂 的 操作 技巧 。 研 究 人 员 也 探索 了 用 多 个 机 器 人 进行 并 行 化 训练 的 方法 (Levine et al., 
2018)。 文 献 (Kalashnikov et al., 2018) 提出 能 同时 在 7 个 真实 机 器 人 上 进行 分 布 式 训练 的 QT-Opt 
算法 , 但 是 需要 持续 4 个 月 的 800 个 小 时 的 机 器 人 数据 采样 时 间作 为 代价 。 他 们 成 功 示 范 了 直接 
在 现实 世界 部 署 的 机 器 人 学 习 , 但 是 其 时 间 消 耗 和 资源 上 的 要 求 一 般 是 无 法 接受 的 。 更 进一步 来 
说 ， 直 接 在 物理 系统 上 训练 策略 的 成 功 例子 尚且 只 在 有 限 的 领域 得 到 验证 。 

模拟 到 现实 迁移 (Sim-to-Real Transfer) 则 是 可 以 替代 直接 在 现实 中 训练 深度 强化 学 习 智 能 
体 的 方法 ， 由 于 模拟 性 能 的 提升 和 一 些 其 他 原因 ， 模 拟 到 现实 迁移 的 方法 比 之 前 受到 更 多 注意 。 
相 比 于 直接 在 现实 世界 中 训练 ， 模 拟 到 现实 迁移 可 以 通过 在 模拟 中 快速 学 习 来 实现 。 近 年 来 ， 许 
多 模拟 到 现实 的 方法 成 功 将 强化 学 习 智 能 体 部 署 到 现实 中 (Akkaya et al., 2019; Andrychowicz et al., 
2018)。 然 而 ， 相 比 于 直接 在 现实 环境 中 部 署 训练 过 程 ,模拟 到 现实 的 方法 也 有 它 本 身 的 缺陷 ， 这 
主要 由 模拟 和 现实 环境 的 差异 造成 ， 称 为 现实 鸿沟 (Reality Gap)。 在 实践 中 有 大 量 因素 会 导致 现 
实 鸿沟 ， 而 这 由 具体 系统 而 定 。 举 例 来 说 ， 系 统 动力 学 过 程 的 差异 将 导致 模拟 和 现实 的 动力 学 鸿 
沟 ， 如 图 7.4 所 示 是 一 个 例子 。 不 同 的 方法 被 提出 来 解决 模拟 到 现实 迁移 的 问题 ， 后 续 还 会 介绍 。 






























































































































































































































































































































































































































































— 5 策略 推理 
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图 74 图片 展示 了 模拟 和 现实 中 MDP 的 差异 ， 它 是 由 状态 采集 和 策略 推理 过 程 产生 的 时 间 延 迟 
造成 的 ， 这 是 造成 现实 鸿沟 的 可 能 因素 之 一 ( 见 彩 插 ) 






































我 们 首先 要 理解 现实 鸿沟 的 概念 。 现 实 应 用 中 的 现实 鸿沟 可 以 在 某 种 程度 上 用 文献 (Jeong 
et al., 2019b) 中 的 图 7.5 来 理解 ， 该 图 展示 了 机 器 人 上 模拟 轨迹 和 现实 轨迹 的 差异 ， 以 及 模拟 和 参 
考 信号 的 差异 。 对 于 强化 学 习 进行 机 器 人 控制 任务 来 说 ， 参 考 信号 是 发 送 给 智能 体 的 控制 信号 ， 
从 而 在 机 械 臂 的 关节 角度 上 获得 预期 的 行为 。 由 于 延迟 、 惯 性 和 其 他 动力 学 上 的 不 准确 性 ， 模 拟 
和 现实 中 的 轨迹 都 会 与 参考 信号 有 显著 差异 。 此 外 ， 现 实 中 的 轨迹 与 模拟 中 的 不 同 就 是 现实 鸿 
沟 。 图 中 的 系统 识别 (System Identification) 是 一 种 确认 系统 中 动力 学 参数 值 的 方法 ， 可 以 用 在 
策略 或 者 模拟 器 中 来 缩减 模拟 动力 学 过 程 和 现实 的 差异 。 泛 化 力 模 型 (Generalized Force Model, 
GFM) 是 一 个 在 论文 (Jeong et al., 2019b) 中 新 提出 的 方法 ， 可 以 用 额外 的 力 来 校正 模拟 器 ， 从 而 
生成 与 现实 更 接近 的 模拟 轨迹 。 然 而 ， 即 使 使 用 了 识别 和 校正 的 方法 ， 现 实 鸿沟 依然 可 能 存在 ， 
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从 而 影响 策略 从 模拟 到 现实 中 迁移 。 


关节 位 置 控制 





关节 角度 /弧度 





-0.3 | 


参考 信号 
真实 机 器 人 轨迹 
系统 识别 之 前 
系统 识别 之 后 


一 模拟 +GFM 

















图 75 在 
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除了 由 于 不 同 








动力 学 过 程 导 致 的 每 











源 。 比 如 ， 在 连续 的 现实 世界 控 
了 离散 时 间 步 的 理想 模拟 | 

















EE 





这 些 














青 况 下 可 能 都 不 存在 。 如 图 


20 30 
时 间 步 








个 简单 的 关节 角度 控制 过 程 中 ， 机 器 人 控制 的 参考 信号 、 模 拟 征 
片 改 编 自 文献 Jeong et al, 2019b) ( 见 彩 插 ) 








加 








个 时 间 步 上 模拟 现实 轨迹 的 差异 , 现实 鸿沟 也 有 其 他 来 























判 系统 中 ， 有 系统 响应 时 间 延 迟 或 系统 观察 量 构建 过 程 耗 时 ， 而 

















7.4 所 示 ， 在 模拟 环境 或 传统 强化 学 


习 设置 下 ， 状 态 采集 和 策略 推理 过 程 都 认为 是 始终 没有 时 间 损 耗 的 ， 而 在 现实 情况 下 ， 这 两 个 过 
































来 进行 





























作 任 务 ， 
FE, 现实 世界 
的 时 间 来 处 理 。 
实 轨迹 和 模拟 攻 




































































此 实践 ! 





智能 体 只 能 够 接受 先前 观察 量 Or 
的 策略 根据 时 间 延 迟 6 








看 的 问题 也 会 使 得 模拟 和 现实 的 轨迹 展现 中 
即使 我 们 假定 有 很 快 的 神经 网 络 前 向 过 程 (Forward Process) 而 忽略 策略 推理 
有 捉 并 用 一 些 定位 技术 来 追踪 ， 而 这 需要 相当 
会 引入 时 间 延 迟 ， 从 而 即使 在 完全 相同 的 探 外 
L 迹 的 对 比 图 上 也 会 展示 出 时 间 间 际 。 这 类 延迟 观察 量 使 得 现实 世界 中 的 强化 学 习 
动作 选择 4 ， 而 非 直接 根据 当前 状态 Seo DS 
根据 实时 


物体 位 置 也 可 能 需要 一 个 摄像 机 来 
这 个 观察 量 构建 的 过 程 
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通常 会 
































时 间 延 退 ， 从 而 训练 智能 体 去 学 习 。 然 而 ， 这 会 导致 其 他 的 问题 ， 上 


练 的 策略 ， 从 而 会 产生 较 差 的 现实 表现 。 


来 对 当前 步 做 日 
J 形式 7 (AÀd|Os5); 而 这 不 同 于 模拟 : 
一 种 解决 这 个 问题 的 方式 是 修改 横扫 





















































不同 的 模式 ， 如 图 7.6 所 示 。 





程 都 可 能 需要 相当 的 时 间 ， 这 使 得 智能 体 总 是 根据 先前 动作 执行 时 的 先前 状态 产生 的 滞后 观察 量 
进行 到 


和 不 一 个 物体 操 




















的 时 间 消 
































拟 和 现实 中 的 时 间 延 迟 ， 如 倍 





While Moving)” 的 方法 ， 在 连续 时 间 MDP 设置 下 减轻 了 强化 学 习 对 于 实时 环境 ， 
并 发 动作 选择 (Concurrent Action Choices) 的 问题 ， 使 得 在 现实 世界 中 的 控制 轨迹 更 
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器 ， 使 其 有 相同 的 


| 观察 量 训 
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如 如 何 精 确 地 表示 和 测量 


R 


保证 基于 延迟 观察 量 学 习 的 智能 体 的 表现 等 。 近 来 , 文献 (Ramstedt 
et al., 2019) 提出 了 实时 强化 学 习 方法 ， 文 献 (Xiao et al., 2020) 提出 了 “ 边 运 动 边 思 考 (Thinking 








如 上 所 述 ， 从 强化 学 习 



















































































度 来 看 模拟 到 现实 迁移 的 主要 问题 在 了 














F. 在 模拟 中 














延迟 观察 量 和 





平滑 。 





1 练 得 到 的 策略 
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图 76 图 片 展 示 了 物体 观察 状态 ( 位 置 ) 在 同一 控制 信号 下 的 时 间 延 迟 。 由 于 现实 中 额外 的 观 


察 量 构建 过 程 ， 现 实 世 界 轨迹 ( 下 方 ) 相 比 于 模拟 轨迹 ( 上 方 ) 定 延 迟 。 不 同 的 线 


体现 了 多 次 测试 结果 ， 加 粗 的 线 为 均值 ( 见 彩 插 














NS 


















































由 于 现实 鸿沟 不 能 在 现实 世界 中 始终 正常 使 用 ， 这 个 现实 鸿沟 即 模拟 和 现实 的 差异 。 由 于 这 个 模 


型 的 差异 ， 模 拟 环境 中 的 成 功 策略 无 法 很 好 地 迁移 到 相应 的 现实 中 。 总 体 来 说 ， 解 决 模拟 到 现实 
迁移 的 方法 可 以 分 为 至 少 两 个 大 类 : 零 样本 (Zero-Shot) 方法 和 自 适 应 学 习 方法 。 将 控制 策略 从 
问题 可 以 被 看 作 是 域 自 适应 (Domain Adaption) 的 一 个 例子 ， 即 将 一 个 在 源 域 
(Source Domain) 中 训练 的 模型 迁移 到 新 的 目标 域 (Target Domain)。 这 些 方法 背后 的 一 个 关键 假 


模拟 迁移 到 现实 的 













































































设 是 不 同 的 域 有 公 



















































































中 收集 样本 , 这 种 
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的 特征 ， 从 而 在 一 个 域 中 的 表征 方式 和 行为 会 对 其 他 域 有 用 。 域 自 适应 要 求 
新 的 域 中 的 数据 适应 预 训练 的 策略 。 在 新 的 域 中 获取 数据 的 复杂 性 或 困难 程度 ， 比 如 在 现实 世界 
自 适应 学 习 方 法 因而 需要 有 较 高 的 效率 。 像 元 学 习 (Arndt et al., 2019; Nagabandi 
tal.,2018)、 残 差 策略 学 习 (Residual Policy Learning) (Johannink et al., 2019; Silver et al., 2018b) 和 
渐进 网 络 (Progressive Networks?) (Rusu et al., 2016a,b) 等 方法 被 用 于 这 些 情 玫 





E. BREA (Zero-Shot) 











迁移 是 一 个 与 域 E 




















适应 互补 一 类 技术 ， 它 尤其 适用 于 在 模拟 中 学 习 。 这 意味 着 在 迁移 过 程 ， 















































中 典型 的 一 类 方法 





























没 


有 任何 基于 现实 世界 数据 的 进一步 学 习 过 程 。 域 随机 化 (Domain Randomization) 是 零 样 本 迁移 


。 通 过 域 随 机 化 ， 源 和 目标 域 的 差异 被 建 模 为 源 域 中 的 随机 性 。 通 过 域 随 机 化 
































可 以 学 到 更 普 适 的 







































































策略 ， 而 非 过 拟 合 到 具体 模拟 器 设置 的 特征 策略 。 根 据 具 体 的 应 用 ， 随 机 化 可 


以 被 施加 到 不 同 的 特征 上 。 举 例 来 说 ， 对 于 机 器 人 操作 任务 ， 摩 控 力 和 质量 的 大 小 、 力 和 矩 和 速度 
的 误差 在 实际 机 器 人 上 都 会 影响 到 控制 的 精度 。 因 此 ， 在 模拟 器 中 这 些 参数 可 以 被 随机 化 ， 
而 用 强化 学 习 训练 一 个 更 鲁 棒 的 策略 (Peng et al., 2018)， 这 个 过 程 称 为 动力 学 随机 化 (Dynamics 








Randomization ) 。 在 视觉 域 下 的 随机 化 可 以 用 于 直接 将 基于 视觉 的 策略 从 模拟 迁移 到 现实 ，1 





需要 任何 现实 的 图 
量 包 括 纹 理 、 光 照 











现实 鸿沟 通常 
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像 来 训练 (Sadeghi et al., 2016; Tobin et al., 2017)。 可 能 的 视觉 随机 化 的 特征 


ij 不 
变 











条 件 和 物体 位 置 等 。 
是 依赖 于 具体 任务 的 ， 它 可 能 由 动力 学 参数 或 者 动力 学 过 程 的 定义 不 同 造 














成 。 
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大 规模 强化 学 习 








除了 动力 学 随机 化 (Peng et al., 2018) 或 视觉 特征 〈 观 察 量 ) 随机 化 ， 还 有 
来 学 习 一 个 对 动力 学 敏感 CDynamics-Aware) 的 








实 鸿沟 。 利 用 系统 识别 (System Identification) 














些 








其 他 方法 来 跨越 现 











策略 (Yu et al., 2017; Zhou et al., 2019) 是 一 个 有 希望 的 方向 ， 它 试图 学 习 一 个 以 系统 特征 为 条 件 
的 策略 ， 这 些 系统 特征 包括 动力 学 参数 或 者 轨迹 的 编码 。 也 有 一 些 方法 来 最 小 化 模拟 与 现实 的 差 








异 ， 比 如 之 前 介绍 的 GFM 方法 用 于 进行 力 校正 ， 等 等 。 模 拟 到 现实 
via Sim-to-Sim) (James et al., 2019) 是 另 一 个 跨 过 现实 鸿沟 的 


























方法 ， 它 使 ) 








通过 模拟 到 模拟 C Sim-to-Real 

















j 随 机 到 标准 自 适 应 网 





络 (Randomized-to-Canonical Adaptation Networks, RCANs) 来 将 随机 的 或 现实 世界 图 像 转 化 成 它 





们 同等 的 非 随 机 的 标 ? 























拟 到 现实 迁移 (Rusu et al., 2016b)， 这 是 一 个 普 适 的 框架 ， 
中 ， 从 而 迁移 到 新 的 任务 上 ， 它 以 一 种 组 合式 但 是 简 
当今 的 计算 框架 利用 离散 的 基于 二 值 
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此 在 某 和 





侍 型 ， 而 与 模拟 环境 中 的 类 似 。 渐 进 网 络 (Rusu et al., 2016a) 也 可 以 上 
重复 利用 任何 低级 视觉 特 行 
单 的 方法 来 构建 复杂 技能 。 

FP 程度 上 ， 我 们 应 当 始 终 承 




















运算 的 计算 过 程 ， 
认 模 拟 和 现实 世界 的 差异 。 这 是 因为 后 竹 
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导 到 一 些 预 训练 模型 也 总 是 




















环境 中 用 的 。 如 果 模 型 在 一 定 程度 上 











只 要 学 习 算 法 不 足够 高 效 而 能 够 直接 像 人 脑 一 样 应 用 于 现实 世界 〈 或 者 即 














于 模 








E 到 高 级 策略 


在 时 间 和 空间 上 是 连续 的 (至 少 在 经 典 物 理 系统 中 )。 





















































现实 鸿沟 下 的 学 习 模 型 方法 论 ， 而 无 关于 模拟 器 本 身 有 多 精确 。 
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更 可 以 实现 )， 在 模拟 
对 现实 环境 的 泛 化 能 力 就 会 











更 好 ， 而 这 是 模拟 到 现实 迁移 算法 的 意义 。 换 名 话说， 模拟 到 现实 迁移 算法 提供 了 始终 考虑 到 在 






































如 前 面 小 节 中 所 讨 




















论 的 ， 强 化 学 习 在 现实 世界 的 应 用 目前 遭遇 到 的 妇 








u 








止 





问题 ， 通 常 属于 现实 鸿沟 的 问题 范畴 。 然 而 ， 也 有 其 他 
拟 情况 下 ， 或 在 现实 世界 中 。 最 有 挑战 性 的 问题 之 一 是 强 


深度 强化 学 习 利用 了 深度 神经 网 络 的 通 


大 



































































































































0 延迟 观察 量 、 域 变换 等 











素 阻 止 了 强化 学 习 的 应 











i» 或 在 模 








化 学 习 的 可 扩展 性 〈Scalability)， 尽 管 
表达 能 力 ， 而 这 提出 了 大 规模 强化 学 习 的 挑战 





战 。 











我 们 可 以 首先 看 一 些 例子 。 在 像 掌 握 大 规模 实时 计算 机 游戏 的 应 月 
Craft) 和 
和 OpenAI Five (Berner et al., 2019) 方法 。 在 AlphaStar ! 
仿 学 习 中 的 行为 克隆 ) 都 被 用 了 
以 及 用 到 
在 整个 策略 中 实际 上 只 占 
在 的 示范 数据 中 学 习 和 使 




























































































小 部 分 。 在 AlphaStar ! 
预 训练 的 策略 ， 作 为 强 
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, 如 《星际 争 





高 级 网 络 结构 如 Scatter Connections, Transformer 和 Pointer 网 络 ， 这 使 
最 终 解 决 任务 的 关键 步骤 是 如 何 高 效 地 从 存 
化 学 习 智 能 体 的 初始 状态 ， 以 及 丸 

















合 来 自 联盟 中 不 同 智能 体 的 不 同 次 优 策略 。 在 OpenAI Five : 


架 被 用 
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0 何 有 效 地 结 
我 博弈 〈Self-Play) 的 框 
于 训练 ， 而 非 PBT 框架 ,但 它 也 使 用 了 从 人 类 示范 中 模仿 学 习 的 方法 。 上 述 事实 说 明 , 在 


35; IL) CStar- 


(JJ9$ 2) (Dota), DeepMind 和 OpenAI 的 团队 分 别提 出 了 AlphaStar (Vinyals et al., 2019) 
， 深 度 强化 学 习 和 监 
个 基于 族群 的 训练 (Population-Based Training, PBT) 框架 中 ， 
得 深度 强 


B5 Chea, $ 


化 学 习 











多 数 情况 下 ， 当 前 的 深度 强化 学 习 算法 本 身 对 于 完美 地 从 端 到 端 去 解决 一 个 大 规模 任务 可 能 仍旧 















































是 不 足够 有 效 且 高 效 的 。 一 些 其 他 技术 如 模仿 学 习 等 通 
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比 外 ,并行 训练 框架 也 常 于 解决 大 规模 问题 。 举 例 来 说 , 在 解决 现实 











常 需要 被 用 来 解决 这 些 大 规模 问题 。 
机 器 人 学 习 的 算法 QT- 
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Opt (Kalashnikov et al., 2018) 中 ,为 了 实现 并 行 的 机 器 人 采样 , 它 应 用 了 一 个 包含 在 线 和 离线 数据 的 
经 验 回放 缓存 ， 以 及 分 布 式 训 练 工作 者 来 高 效 地 从 绥 存 数据 中 学 习 。 一 个 分 布 式 或 并 行 的 采样 和 
训练 框架 对 于 解决 这 类 大 规模 问题 很 关键 , 尤其 是 对 高 维 的 状态 和 动作 空间 。 文献 (Espeholt et al., 
2018) 提出 了 重要 性 加 权 的 行动 者 -学 习 者 结构 (Importance Weighted Actor-Learner Architecture, 
IMPALA) ， 而 文献 (Espeholt et al., 2019) 提出 了 可 扩展 高 效 深度 强化 学 习 (Scalable, Efficient 
Deep-RL, SEED) 来 实现 大 规模 分 布 式 强 化 学 习 。 另 外 ， 强 化 学 习 的 分 布 式 框架 通常 与 不 同 计算 
设备 (比如 CPU 和 GPU) 间 的 平衡 有 关 ， 如 第 18 章 中 所 讨论 的 。 在 强化 学 习 算 法 方面 ， 异步 优 
势 Actor-Critic (Asynchronous Advantage Actor-Critic, A3C) (Mnih et al., 2016)、 分 布 式 近 端 策略 
优化 (Distributed Proximal Policy Optimizaion, DPPO) (Heess et al., 2017). 4342247 4 rk DON 
(Recurrent Peplay Distributed DON, R2D2) (Kapturowski et al., 2019) 等 算法 在 近年 来 被 提出 ， 来 
更 好 地 支持 强化 学 习 中 的 并 行 采样 和 训练 。 更 多 关于 强化 学 习 中 并 行 计算 的 内 容 在 第 12 章 中 有 
所 介绍 。 
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除了 上 面 提 到 的 (深度 ) 强化 学 习 中 的 挑战 ， 也 有 一 些 其 他 挑战 ， 比 如 深度 强化 学 习 的 可 解 
释 性 (Madumal et al., 2019)、 强 化 学 习 应 用 的 安全 性 问题 (Berkenkamp et al., 2017; Garcia et al., 
2015)、 相 关 理 论 中 复杂 度 证 明 (Koenig et al., 1993; Lattimore et al., 2013) 中 的 困难 、 强 化 学 习 算 
法 的 效率 (Jin et al., 2018) 和 收敛 性 质 (Papavassiliou et al., 1999)， 以 及 理解 清楚 强化 学 习 方 法 在 整 
个 人 工 智能 中 的 作用 和 角色 等 。 这 些 内 容 超 出 本 书 范畴 ， 有 兴趣 的 读者 可 以 自行 探索 这 些 领域 的 
前 沿 。 
在 本 章 最 后 , 我 们 引用 Richard Sutton? 的 一 些 话 ,“ 我 们 从 这 些 痛苦 的 教训 中 应 当 学 到 的 一 点 
是 通用 型 (General Purpose) 模型 的 力量 ， 即 那些 能 够 随 着 计算 能 力 提 升 而 不 断 扩展 的 方法 ， 它 
们 甚至 到 极其 巨大 的 计算 量 时 也 能 工作 。 有 两 个 看 起 来 能 够 以 这 种 方式 任意 扩展 的 方法 是 搜索 和 
学 习 。 ”这些 话 基于 这 样 的 观察 ， 即 在 计算 机 象棋 或 计算 机 围棋 ， 以 及 像 语音 识别 和 计算 机 视觉 
等 领域 上 的 以 往 成 功 ， 一 般 的 统计 性 方法 (如 神经 网 络 ) 胜 过 了 基于 人 类 知识 的 方法 。 因 此 ， 智 
能 系统 中 的 租 入 式 知 识 可 能 只 能 在 较 短 时 间 内 满足 研究 人 员 , 而 在 长 期 阻碍 了 通用 人 工 智能 的 整 
体 发 展 过 程 。“ 第 二 个 从 痛苦 的 教训 中 学 到 的 东西 是 大 脑 中 实际 的 内 容 是 极其 复杂 的 ， 且 这 种 复 
杂 性 是 不 可 更 改 的 ; 我 们 应 当 停 止 寻找 简单 的 方式 来 考虑 大 脑 中 的 内 容 ， 比 如 用 简 答 的 方式 考虑 
空间 、 物 体 、 多 个 智能 体 或 对 称 性 。 所 有 的 这 些 都 是 任意 的 、 本 质 上 复杂 的 外 在 环境 的 部 分 。 它 
们 不 是 我 们 应 当 肉 入 的 东西 ， 因 为 它们 的 复杂 度 是 无 穷 的 ; 相反 ， 我 们 应 当 只 构建 元 方法 来 找到 
和 采集 这 种 任意 的 复杂 度 。” 这 人 句 话 阐释 了 提出 元 方法 来 自然 地 处 理 世 界 的 复杂 度 的 重要 性 ， 而 
非 使 用 人 为 构建 的 、 有 具体 用 途 的 、 相 对 简单 的 认 知 结构 和 决策 机 制 。 







































































































































































































































































2Richard S. Sutton. “The Bitter Lesson.”March 13, 2019. 
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模仿 学 习 








为 了 缓解 深度 强化 学 习 中 


(Apprenticeship Learning) 是 一 





的 低 样本 效率 问题 ， 模 仿 学 习 (Imitation Learning) 或 





尔 学 徒 学 习 

















种 可 能 的 解 世 











实现 策略 优化 。 为 了 让 读者 全 卫 





理解 如 何 








要 的 几 类 方法 ， 





EA A 
TH 





Learning)、 从 观察 量 CObservations) 进行 





高 效 地 从 示范 数据 ! 


方式 ， 在 连续 决策 过 程 中 利 ) 








专家 示范 来 更 快速 地 
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范畴 下 ， 模 仿 学 习 可 以 ) 


j 作 对 智能 体 训练 的 初始 化 或 引导 。 在 实践 ! 














是 一 种 可 以 有 效 学 习 并 进行 快 


81 简介 


XR 


F As 








如 我 人 
讨论 的 。 通 
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FH 






































有 效 的 1 


] 所 知 ， 强 化 学 习 ， 尤 
其 解决 一 个 不 是 
然而 ， 人 类 可 以 用 少 得 多 的 时 间 条 
田地 设计 强化 学 习 算法 本 身 ， 我 们 实际 上 可 以 让 
示范 (Expert Demonstrations)。 这 些 专家 示范 依据 先 验 知识 而 对 
高 见 可 以 通过 一 个 适当 的 学 习 过 程 而 被 提取 或 转移 至 
示范 中 学 习 的 任务 被 称 为 模仿 学 习 〈Imitation Learning, IL), 








1 
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同类 其 





Lea 




















rning)。 人 类 和 动物 天 生 就 有 模仿 
于 强化 学 习 ， 监 督学 习 在 数据 使 用 方面 是 一 种 更 加 高 效 的 方法 ， 


















































比 ， 如 果 示 范 数据 是 以 有 标签 的 

















民 复 杂 的 任务 并 达到 人 类 级 别 
fF 本 来 解决 这 些 任务 。 为 了 改进 强化 学 习 的 算法 效率 ， 除 了 通 
一 些 额 外 的 信 | 
策略 选择 有 一 定 人 
化 学 习 的 智能 体 策 略 : 




















仿 学 习 、 概 率 性 方法 和 一 些 














略 优化 的 方法 。 


是 无 模型 的 强化 学 习 ， 有 着 低 样本 效率 的 问题 ， 











岗 可 能 需要 成 百 上 千 的 


提取 信息 ， 我 们 将 介绍 模仿 学 习 中 
包括 行为 克隆 (Behavioral Cloning)、 首 向 强化 学 习 (Inverse Reinforcement 
他 方法 。 在 强化 学 习 的 


+ 
， 结 合 








模仿 学 习 和 强化 学 习 


如 第 7 章 所 
EAR 。 











DES 
































智能 


体 利 月 


Jr 





也 称 为 学 和 








他 个 体 的 能 力 ， 这 启发 了 让 智 


能 体 从 j 


息 源 ， 比 如 专家 
扁 向 性 ， 而 这 些 
。 从 专家 
E 学 习 (Apprenticeship 
其 他 个 体 的 示范 





















































多 式 提 供 的 











可 以 


， 监 督学 习 的 方法 











中 进行 模仿 学 习 的 方法 。 相 上 
为 它 可 以 利用 有 标签 数据 。 因 上 
被 融合 到 智能 体 的 学 习 过 程 中 来 改进 它 的 学 习 效率 。 


























8. 简介 























本 章 中 ， 我 们 将 介绍 不 同 的 使 用 示范 进行 策略 学 习 的 方法 。 图 8.1 是 对 模仿 学 习 中 各 个 类 别 
方法 的 概览 。 我 们 将 在 后 续 小 节 中 详细 介绍 各 种 模仿 学 习 方法 ， 并 将 它们 总 结 成 几 个 主要 的 类 
别 ， 包 括 (1) 行为 克隆 (Behavioral Cloning, BC), (2) 逆向 强化 学 习 《〈Inverse Reinforcement 
Learning, IRL), (3) 从 观察 量 进行 模仿 学 习 (Imitation Learning from Observations，IfO,，( 一 些 
文献 (Sun et al., 2019b) 中 称 ILFO), (4) 概率 推理 ，(5) 其 他 方法 。BC 是 一 种 最 简单 和 直接 的 通 
过 监督 学 习 方式 利用 示范 数据 的 方法 ， 由 于 它 的 简便 性 而 被 广泛 使 用 并 作为 其 他 更 高 级 方法 的 基 
^i. IRL 对 于 某 些 应 用 情况 是 有 用 的 ， 比 如 难以 写 出 显 式 的 奖励 函数 (Explicit Reward Function) 
来 实现 在 不 同 的 目标 之 间 权 衡 的 情况 。 举 例 来 说 ， 对 于 一 个 基于 视觉 观察 量 的 自动 驾驶 车 辆 ， 多 
少 注意 力 应 当 被 分 配 到 处 理 不 同 的 反光 镜 上 ， 这 难以 通过 奖励 函数 工程 的 方式 来 定义 。IRL 是 一 
种 可 以 从 示范 数据 中 恢复 未 知 奖励 函数 的 方法 ， 从 而 促进 强化 学 习 过 程 。IfO 实际 上 解决 了 模仿 
学 习 的 一 个 缺陷 ， 即 它 通 常 要 求 每 个 状态 输入 都 伴 有 动作 标签 ， 而 这 种 方式 在 人 类 的 模仿 学 习 过 
程 中 也 是 经 常 发 生 的 。 从 概率 推理 的 角度 出 发 的 方法 包括 用 高 斯 混合 模型 回归 (Gaussian Mixture 
Model Regression) 或 高 斯 过 程 回 归 (Gaussian Process Regression) 来 表示 示范 数据 并 引导 动作 策 
略 ， 在 某 些 情况 下 这 是 比 深 度 神 经 网 络 更 高 效 的 替代 方法 。 也 有 一 些 其 他 方法 ， 比 如 对 离线 策略 
COff-Policy) 强化 学 习 直接 将 示范 数据 送 入 经 验 回 放 缓 存 (Replay Buffer) 等 。 在 介绍 了 不 同 模仿 
学 习 方 法 的 基本 类 别 后 ， 我 们 将 讨论 模仿 学 习 和 强化 学 习 的 关系 ， 比 如 将 模拟 学 习 用 作 强 化 学 习 
的 初始 化 ,来 提高 强化 学 习 的 效率 。 最 终 ， 我 们 将 介绍 一 些 其 他 的 伴随 强化 学 习 的 具体 模仿 学 习 
方法 ， 它 们 可 能 是 之 前 一 些 概念 和 方法 的 组 合 ， 或 者 我 们 之 前 总 结 过 的 方法 类 别 之 外 的 方法 ， 如 
图 8.1 所 总 结 的 。 
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模仿 学 习 (Imitation 
Learning, IL) 


概率 推理 (Probabilistic 
Inference ) 

无 模型 (Model-free ) 
奖励 函数 工程 生成 对 抗 (Generative 

(Reward-Engineering ) Adversarial ) 方法 




























逆向 强化 学 习 (Inverse 
Reinforcement Learning , IRL) 


从 观察 量 进行 模仿 学 习 (Imitation 
Learning from Observation , IfO) 


RL 缓 存 中 的 示范 


基于 模型 (Model-based ) 
反 向 动态 模型 正 向 动态 模型 
(Inverse Dynamics Model ) (Forward Dynamics Model ) 


行为 克隆 (Behavioral 
Cloning ，BC) 














从 观察 量 进行 行为 克隆 从 观察 量 模仿 潜在 策略 时 间 对 比 网 络 生成 对 抗 模仿 学 习 最 大 炳 逆向 强化 学 习 DAGGER 等 
(Behavioral Cloning from (Imitating Latent Policies (Time-contrastive (Generative Adversarial (Maximum Entropy IRL. ) 等 
Observation , BCO) 等 from Observation , ILPO) 等 Networks, TCN) 等 Imitation Learning , GAIL) & 


图 8.1 模仿 学 习 算法 概览 








模仿 学 习 的 概念 可 以 用 学 徒 学 习 的 形式 (Abbeel et aL, 2004) KEN: 按照 一 个 未 知 的 奖励 函 
Ji r(s, a), 学 习 者 找到 一 个 策略 能够 表现 得 和 专家 策略 re 相当 。 我 们 定义 一 个 策略 re 区 的 占 
]3€ (Occupancy) 的 度量 pr € D : Sx A> R NX: ps (sa) = n(a|s) 355-9 Y P(S: = slr) (Puterman, 
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第 8 章 模仿 学 习 








样 一 个 策略 ; 





其 中 wy 是 一 个 pr 和 pm 之 间 的 距离 度量 , 而 AH (r) 是 一 个 有 权衡 
这 个 正则 化 项 可 以 定义 为 策略 r 的 7- 折扣 因果 Causal Entropy): H (7) E 
略 采样 得 到 的 {(s, a)) 分 布 和 示范 数据 ! 


仿 学 习 的 整体 








目标 就 是 增加 从 当 


î = arg min v" (pr 























Ev 


Hi v 





时 考虑 到 策略 参数 上 的 一 些 限制 。 


8.2 





























如 果 示 范 数据 
示范 的 模仿 学 习 可 以 
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= 
A 











范 数据 D 通常 包含 配对 的 状态 和 动作 : D = {(si,ai)|i =1,---,N}, J 
小 而 指标 i 表示 s; 和 a; 是 在 同一 个 时 间 步 的 。 在 满足 MDP 假设 的 情况 下 《〈 即 最 优 动人 
可 以 被 打 乱 。 考 虑 强化 学 习 设 定 下 ， 有 一 个 以 0 参数 





于 当前 状态 )， 状 态 -动作 对 的 顺序 在 训练 ， 


化 和 s 为 输入 状态 的 初始 策 


D = {(s:,a;)|i = 1,--- QN) 





一 些 随 机 性 策略 re(ils) 的 具体 形式 ， 比 如 高 斯 策略 等 ， 可 以 用 


行为 克隆 方法 

了 相应 标签 的 话 〈 比 如 ， 对 于 给 定 状态 的 一 个 好 的 动作 可 以 被 看 作 一 个 标签 )， 
自然 地 被 看 作 是 一 个 监督 学 习 任务 。 在 强化 学 习 的 情况 下 ， 有 标签 的 示 
其 中 N 是 示范 数据 集 的 大 
































各 ro， 其 输出 的 确定 1 
可 以 




















min > 
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(sisai)~D 


23 


min 
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来 训练 这 个 策 








— Pre) — AH (x) 
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4T. 


2014)， 这 是 一 个 用 当前 策略 估计 的 状态 和 动作 的 联合 分 布 。 由 于 AD 的 一 一 对 应 关系 ， 模 仿 


学 习 的 问题 等 价 于 pr(s,a) 和 pz, (s, a) 之 间 的 一 个 匹配 问题 。 模 仿 学 习 的 一 个 普遍 目标 是 学 习 这 





(8.1) 


FA 的 正则 化 项 。 举 例 来 说 ， 


[一 log x(s,a)]。 模 

















分 布 的 相似 度 ， 同 



































EH 


依赖 











生动 作为 mols) RIA EZA 
略 ， 其 目标 如 下 : 














lla: 一 Treo(si)l 
































la; — ài 


dicm (si) (si, ai)" D 


























这 个 使 用 监督 学 习 直接 模仿 专家 示范 的 方法 在 文献 
8.2.1 行为 克隆 方法 的 挑战 


。 协 变量 漂移 〈Covariate Shift): 尽管 模仿 学 习 可 以 对 与 示范 数据 集 〈 用 于 训练 策略 ) 相似 的 
样本 有 较 好 的 表现 ， 对 它 在 训练 过 程 中 未 见 过 的 样本 可 能 会 有 较 差 的 泛 化 表现 ， 因 为 示范 
集中 只 能 包含 有 限 的 样本 。 举 例 来 说 ， 
能 跟 训 练 中 的 样本 来 自 不 同 的 群集 (Cluster), kein, f 














数据 


















































如 果 数 据 分 布 是 多 模式 的 ， 测 试 ， 





成 的 示范 数据 集 


(8.2) 


参数 化 技巧 来 处 理 : 


(8.3) 


称 为 行为 克隆 (Behavioral Cloning, BC). 














的 新 样本 可 




















实践 中 将 一 个 不 同 猫 的 分 类 器 用 了 











8.2 行为 克隆 方法 














区 分 狗 的 种 类 。 由 于 BC 方法 将 决策 问题 归结 为 一 个 监督 学 习 问 题 ， 机 器 学 习 中 ， 众 所 周知 
的 协 变量 漂移 (Ross et al., 2010) 的 问题 可 能 使 通过 监督 学 习 方 法 学 得 的 策略 很 脆弱 ， 而 这 
对 BC 方法 是 一 个 挑战 。 图 8.2 进一步 前 释 了 BC 中 的 协 变量 漂移 。 





































































测试 样本 
训练 样本 














图 82 ” 协 变量 漂移 ， 所 学 的 函数 ( 虚线 ) 对 训练 样本 可 以 很 好 地 拟 合 ( 交叉 符号 )， 但 是 对 测试 
样本 ( 点 符号 ) 有 很 大 的 预测 偏差 。 线 是 真实 值 






























































。 复 合 误差 (Compounding Errors): BC 方法 在 很 大 程度 上 受 复 合 误差 的 影响 ， 这 是 一 种 小 

误差 可 以 随时 间 累 积 而 最 终 导致 显著 不 同 的 状态 分 布 (Ross et al., 2011) 的 现象 。 强 化 学 习 
任务 的 MDP 性 质 是 导致 复合 误差 的 主要 因素 ， 即 连续 误差 的 放大 效应 。 而 在 BC 方法 中 ， 
实际 上 在 每 一 个 时 间 步 上 产生 的 误差 主要 可 能 是 由 上 面 所 述 的 协 变量 漂移 所 造成 的 。 图 8.3 
展示 了 复合 误差 。 













































































图 83 在 一 个 连续 决策 任务 中 ， 复 合 误差 沿 着 当前 策略 选择 的 轨迹 逐渐 增加 











8.2.2 ”数据 集聚 合 


数据 集聚 合 (Dataset Aggregation; DAgger) (Ross et al., 2011) 是 一 种 更 先进 的 基于 BC 方法 
的 从 示范 中 模仿 学 习 的 算法 , 它 是 一 种 无 悔 的 (No-Regret) 迭代 算法 。 根据 先前 的 训练 迭代 过 程 














Ty 


它 主动 选择 策略 ， 在 随后 过 程 中 有 更 大 几率 遇 到 示范 样本 ， 这 使 得 DAgger 成 为 一 种 更 有 用 且 高 
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效 的 在 线 模仿 学 习 方 法 ， 可 以 应 用 于 像 强化 学 习 中 的 连续 预测 问题 。 示 范 数据 集 























D 会 在 每 个 时 








间 步 ;连续 地 聚合 新 的 数据 集 Di， 这 些 数 据 集 包 含 当前 策略 在 整个 模仿 学 习 过 程 中 遇 到 的 状态 








和 相应 的 专家 动作 。 因 此 ，DAgger 同样 有 一 个 缺陷 ， 即 它 需 要 不 断 地 与 专家 交互 ， 





而 这 在 现实 应 

















用 中 通常 是 一 种 苛求 。DAgger 的 伪 代 码 如 算法 8.29 所 示 ， 其 中 t ERAN, T 
时 对 策略 软 更 新 (Soft-Update 〉 的 参数 。 





算法 8.29 DAgger 


J Bi 是 在 迭代 i 





1: HUE D + 

2: 初始 化 策略 f, 7958 NAA 
3: fori — 1,2,---, N do 
4: 7i € Bin* + (1— Bim 

H mi 采样 几 个 工 步 的 轨迹 

得 到 由 m 访问 的 策略 和 专家 给 出 的 动作 组 成 的 数据 集 Pi = {(s, 7*(s))} 
聚合 数据 集 : D DUD; 

在 DD 上 训练 策略 tia 

9: end for 

10: 返回 策略 Nyi 





I 中 任意 策略 




















TI 
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OOS gw 











8.2.3 Variational Dropout 














FPR E A PZ CE EE HUI ARIF 8: HF]. Variational Dropout (B 








lau et al., 2018), 























EH BC 方法 中 完全 克隆 专家 示范 的 行为 。 在 这 个 方法 中 ,使 用 示范 数据 集 预 让 
得 到 的 权重 被 参数 化 为 高 斯 分 布 ， 并 用 一 个 确定 的 方差 阔 值 来 进行 高 斯 Dropout, 



















































































性 ， 因 而 是 一 种 使 用 模仿 学 习 来 初始 化 强化 学 习 的 有 用 技巧 。 











8.2.4 ”行为 克隆 的 其 他 方法 


























| 练 ( 模 仿 学 习 ) 
然后 用 来 初始 























化 强化 学 习 策 略 。 对 于 模仿 学 习 的 Variational Dropout 方法 (Molchanov et al., 2017) 可 以 被 看 作 一 
种 相 比 于 在 预 训练 的 权重 中 加 入 噪声 来 说 更 高 级 的 泛 化 方法 ， 它 可 以 减少 对 噪声 大 小 选择 的 敏感 








行为 克隆 方法 也 包含 了 其 他 一 些 概念 。 比 如 ， 一 些 方法 提供 了 在 一 个 任务 中 将 示范 数据 泛 





N 


化 到 更 一 般 情 形 的 方法 ， 比 如 动态 运动 基 元 (Dynamic Movement Primitives, DM 
































P) (Pastor et al., 

















2009) 法 ， 它 使 用 一 系列 微分 方程 (Differential Equations) 来 表示 任何 记录 过 的 运动 。DMP 中 


























的 微分 方程 通常 包含 可 调整 的 权重 ， 以 及 非 线 性 函数 来 生成 任意 复杂 运动 。 因 出 


















































相 比 于 “ 黑 盒 ”深度 学 习 方 法 ，DMP 更 像 是 一 种 解析 形式 的 解决 方法 。 此 外 ， 有 一 种 单 样 本 的 


























(One-Shot) 模仿 学 习 方 法 (Duan et al., 2017) 使 用 对 示范 数据 的 柔性 注意 力 (Soft 





























模型 泛 化 到 在 训练 数据 中 未 见 过 的 情景 。 它 是 一 种 元 学 习 (Meta-Learning) 的 方法 ， 在 多 个 任务 











在 行为 克隆 











Attention ) 来 将 









































将 一 个 任务 的 一 个 示范 映射 到 一 个 有 效 的 策略 上 。 相 关 的 方法 不 限于 此 , 在 这 











有 不 做 过 多 介绍 。 
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8.3. 送 向 强化 学 习 方法 





8.3 ”逆向 强化 学 习 方 法 





8.3.1 简介 


另 一 种 主要 的 模仿 学 习 方法 基于 
et al., 2000; Russell, 1998)。IRL 可 以 归 
Function) 的 问题 


中 交 
T 
































Sos moe 

















结 为 解决 从 观察 到 的 最 优 行为 ! 
， 这 些 最 优 行为 也 可 以 表示 为 专家 策略 rp。 基于 



























































以 下 方式 选择 R*: 


Tong 的 单 步 选 择 尽 可 能 产生 更 大 损失 。 对 于 所 有 满足 |R(s)| € Rmax, Vs 的 奖励 函 
vg d (s, az) 一 Eo 5 (s,a)) 














其 中 ag = mE(s) BK ag ~ n(.|s) 是 专家 (最 优 的 ) 动作 。 基 于 























比如 操控 


个 直升机 (Abbeel et al., 2004) VAT 











| (Finn et al., 2016b). IRL 








Russell, 1998) 企图 从 观察 到 的 最 优 行为 ， 比 如 专家 示范 中 提取 一 个 奖励 函数 ， 但 
可 能 不 是 唯一 


Entropy) 正则 














逆向 强化 学 习 CInverse Reinforcement Learning, IRL) (Ng 
提取 奖励 函数 (Reward 
IRL 的 方法 反复 地 在 两 个 过 程 
断 一 个 隐藏 的 奖励 或 代价 〈Cost) 函数 ， 另 一 个 是 使 用 强化 学 习 基 
习 一 个 模仿 策略 。IRL 选择 奖励 函数 丸 来 最 优化 策略 ， 并 




















日 使 得 任何 脱离 






































数 R, IRL 用 








(8.4) 


IRL 的 技术 已 经 被 用 于 许多 任务 ， 
(Ng et al., 2000; 
是 这 个 奖励 函数 




















的 《在 之 后 有 所 讨论 








). IRL 中 





qu 









































IRL 可 以 表示 为 以 下 两 个 步 又 : 


这 构成 了 RLoIRL(Gr) 策略 学 习 架 构 。 
和 强化 学 习 策 略 间 的 奖励 值 差 异 ， 并 日 











IRL(zg) = arg max Es, [R(s,a)] — RL(R) 








RL(R) 








E [R(s, a)] 





= max H(n(.|s)) + 
































型 的 方法 是 使 用 最 大 因果 (Maximum Causal 
45. EKHI (Maximum Entropy, MaxEnt) IRL (Ziebart et al., 2010) 方法 。 





MaxEnt 


(8.5) 


(8.6) 


第 一 个 式 子 IRL (tg) 学 习 一 个 奖励 函数 来 最 大 化 专家 策略 
IF Q 值 是 对 奖励 的 估计 ， 它 可 以 被 式 (8.4) EV. 8 — 


个 式 子 RL(R) EMGIENI 6 (Entropy-Regularized) 正 向 强化 学 习 ， 而 其 奖励 函数 尺 是 第 一 个 式 子 











FAH x BITS 五 (x(-|s)) 是 给 定 状态 下 的 策 
关于 随机 变量 X 的 分 布 p(X) 的 香农 信 ， 








EA 4) f PERS ERR o 











定义 8.1 一 个 满足 p 分 布 的 离散 随机 变量 X 48 887 


对 于 强化 学 习 中 随机 策略 的 1 











M(X) = — >》 p(X) log p(X) 


XEX 


p(x) [— log p(X)] = 





IR EE E JU BOSE AT I DR PS Ze TE o 


青 况 ， 表 示 动 作 分 布 的 随机 变量 通常 排列 成 一 个 与 动作 空间 维 





(8.7) 





数 
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相同 的 矢量 。 








常 | 





j 的 分 布 有 对 











高 斯 分 布 和 类 别 分 布 ， 














u 





Se die TTA Ze AR HT ALY 











代价 函数 c(s,a) = —R(s,a) 也 很 常见 ， 它 在 强化 学 习 的 过 程 中 被 最 小 化 : 








其 中 五 (r) = 




















RL(c) = arg min — H (x) + 





i. [c(s, a)] 

















把 上 式 代 入 IRL 公式 (8.5) 中 ， 我 们 可 以 将 IRL 的 目标 表示 成 max-min 的 形式 ， 它 企图 在 最 


(8.8) 


gz-[ 一 logr(als)] 是 策略 r AIR. 4 Rr PRL c(s, a) 常用 作 当 前 策略 r 的 分 布 和 示范 


A8 S VA) AAA A Et. (or) 可 以 被 视 作 实现 最 优 解 的 唯 


性 的 正则 化 项 。 



























































以 及 进行 策略 m 的 











(8.9) 





KAI TE DU] EL ELS BAA 21— PAS. s 和 动作 a 的 代价 函数 c(s, a), 
学 习 。 
max(min 一 | 一 logr(als)] + E; [c(s, a)]) — Em [c(s, a)] 
其 中 m 表示 生成 专家 示范 的 专家 策略 ， 而 x 是 强化 学 习 过 程 训 练 的 策略 。 所 学 的 代价 函数 将 给 




















EZR MSF} CAC Ten BP A TT es HAE SR BHR BIST ARS o 


8.3.2 


逆向 强化 学 习 方 法 的 挑战 


。 奖 励 函 数 的 非 唯一 性 或 奖励 歧义 (Reward Ambiguity): IRL 的 函数 搜索 是 病态 的 (ll-Posed)， 


因为 示范 行为 
1999) 的 概念 ， 
下 奖励 变换 之 


最 优 集 略 对 任何 函数 o: S 一 R 保持 不 变 。 


























可 以 
这 个 概念 描述 了 
F: 





























f(s, a, s^) = r(s, a, s^) 十 yels”) = o(s), 





Ll 





多 个 奖励 或 代价 函数 导致 。 它 始 了 
类 能 保持 最 优 策略 的 奖励 函数 变换 。 主 要 的 结果 是 ， 在 以 





奖励 塑 形 (Reward Shaping) (Ng etal., 








(8.10) 






































] 示 范 数据 通过 IRL 方法 学 到 的 奖励 函数 ， 























是 不 能 消除 上 面 一 类 变换 下 奖励 函数 之 间 分 歧 的 。 
因此 ， 我 们 需要 对 奖励 或 者 策略 施加 限制 来 保证 示范 行为 最 优 解 的 唯一 性 。 举 例 来 说 ， 奖 
励 函 数 通常 被 定义 为 一 个 状态 特征 的 线性 组 合 (Abbeel et al., 2004; Ng et al., 2000) 或 凸 的 组 




















fr (Convex Combination) (Syed et al., 2008). PTZ BI S Wee t9 [Bt Bt ECTS ERAK (Ziebart et al., 























2008) RA ATA RAG (Ziebart et al., 2010) 规则 。 然 而 ， 这 些 显 式 的 限制 对 所 提出 方法 (Ho 


et al., 2016) 的 


较 大 的 计算 代 
而 ， 在 推断 出 
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FIER 











j 性 有 一 定 潜在 限制 。 








通 / 














fft: IRL 可 以 在 

















般 强 化 学 习 过 程 中 通过 示范 和 交互 学 到 一 个 更 好 的 策略 。 然 

















的 奖励 函数 下 ， 使 ) 

















强化 学 习 来 优化 策略 要 求 智能 体 与 它 的 环境 交互 ， 这 从 
时 间 和 安全 性 的 角度 考虑 都 可 能 是 要 付出 较 大 代价 的 。 此 外 ，IRL 的 步骤 主要 要 3 
励 函 数 (Abbeel et al., 2004; Ziebart et al., 2008) 的 内 循环 中 解决 一 个 MDP 问 














智能 体 





8.3. 送 向 强化 学 习 方法 














题 ， 而 这 从 计算 的 角度 也 可 能 是 有 极 大 消耗 的 。 然 而 ， 近 来 有 一 些 方法 被 提出 ， 以 减轻 这 
个 要 求 (Finn et al., 2016b; Ho et al., 2016)。 其 中 一 种 方法 称 为 生成 对 抗 模仿 学 习 《〈Generative 
Adversarial Imitation Learning, GAIL) (Ho et al., 2016). 












































8.3.3 生成 对 抗 模仿 学 习 


生成 对 抗 模仿 学 习 CGenerative Adversarial Imitation Learning, GAIL) (Ho et al., 2016) 采用 了 
生产 对 抗 网 络 (Generative Adversarial Networks, GANs) (Goodfellow et al., 2014) 中 的 生成 对 抗 方 
法 。 相 关 算 法 可 以 被 想 成 是 企图 引入 一 个 对 模仿 者 的 状态 -动作 占用 率 Occupancy) 的 度量 ， 使 
之 与 示范 者 的 相关 特性 类 似 。 它 使 用 一 个 GAN 中 的 辨别 器 (Discriminator) 来 给 出 基于 示范 数 
据 的 动作 -价值 (Action Value) 函数 估计 。 对 于 一 般 基 于 动作 价值 函数 的 强化 学 习 过 程 来 说 ， 动 
作 - 价 值 可 以 通过 一 种 生成 式 方法 来 从 示范 中 得 到 : 











































































































Q(s, a) a ET; log( Da (s, a))], (8.11) 



































Ti ENB d RAE ARG, mM Du, (s, a) 是 来 自 辨别 器 的 输出 值 Du. (s, a). X 
别 器 的 参数 为 w+1l。wi+l 表示 Q 值 是 在 更 新 了 一 步 辨 别 器 的 参数 过 后 再 估计 的 ， 因 此 迭代 次 数 
是 i 十 1。 辨 别 器 的 损失 函数 定义 为 一 般 形式 : 




































































Loss = Ez; [Vu log(D,(s,a))| + Eq [Vo log(1 — D, (s, a))] (8.12) 









































其 中 万， 大 分 别 是 来 自 探 索 和 专家 示范 的 样本 集合 ， 而 w 是 辨别 器 的 参数 。 图 8.4 展示 了 GAIL 
的 结构 。 






























| 专家 久 新 手 混合 
观测 数据 (状态 ) 




















图 84 GAIL 的 结构 ， 改 编 自 文献 (Ho et al., 2016) 
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通过 GAIL 方法 ， 策 略 可 以 通过 由 示范 数据 泛 化 
的 方法 有 较 低 的 计算 消耗 。 它 也 不 需要 在 
Fh 实际 上 有 时 难以 得 到 的 交互 数 扩 
方法 可 以 进一步 推广 到 多 模 态 的 《Multi-Modal) 策略 来 从 多 任务 中 学 习 。 基 于 GAN 的 
目标 函数 《额外 的 潜在 指标 表示 不 同 的 任 

















这 











这 利 


多 模 态 模仿 学 习 (Hausman et al., 2017) 将 一 个 更 高 级 的 





78 
F 














Ei 





Ei 


f o 














Z) 
模 态 策略 。 
D 
GAIL 的 目标 4 




















点 是 ， 我 们 绕 过 了 生成 奖励 的 ! 
于 所 有 的 (s, a) 将 收敛 到 0.5. 

















8.3.4 


如 上 所 述 ，GAIL 方法 无 法 从 示范 数 扩 


Ke 
Bot 


于 生成 对 抗 过 程 ， 











， 从 而 





民 据 文献 (Goodfellow et al., 2014)， 如 果 有 无 限 的 数据 和 无 











IE 








自动 划分 来 自 不 同 任务 的 示范 ， 





成 的 状态 -动作 分 布 应 当 完 全 匹配 示范 数 














BERAIR 


到 的 样本 进 
跟 专家 进行 交互 ， 而 像 DAgger 等 方法 可 


p 


























相 比 于 使 用 IRL 


ob a 
能 需要 


行 学 习 ， 而 



































并 以 模仿 学 习 的 方法 学 习 一 个 多 














民 的 计算 资源 ， 在 最 优 情 况 下 ， 以 
态 -动作 对 。 然 而 ， 这 种 方法 的 缺 



































EPK, BH 

















的 结构 来 优化 一 个 指 

















训练 的 最 优 辨 别 器 ! 
GAN-GCL 








提取 
方法 ( 























个 最 优 的 奖 


我 们 不 能 从 辨别 器 ! 








生成 对 抗 网 络 指导 性 代价 学 习 


居中 恢复 奖励 函数 。 一 个 类 似 的 工作 称 为 生成 对 抗 网 络 
性 代价 学 习 (Generative Adversarial Network Guided Cost Learning, GAN-GCL), 它 基于 GAN 
导 性 代价 学 习 (Guided Cost Learning, GCL) 方法 ， 以 此 来 从 使 月 
励 函 数 。 我 们 将 详细 介绍 该 方法 。 

LRT GCL 部 分 ) 是 基于 之 前 介绍 的 最 大 因果 


提取 奖励 函数 ， 因 为 D, (s, a) 对 

















日 示范 数 





H 




















K& c 18] 084455 2] FIERY, 





ES — "p 8 1E DU] 4; 2R RI SX (Markov Decision Process, MDP) . 1E WE MDP 对 








于 强化 学 习 的 目 
Reward ): 








7* = arg max 
T7 








Fs xe BA Hs 8 E WU Hh FZ 

















T 
Erur | o (r(So At) + H (al 


t=0 





这 是 源 自 式 (8.5) 的 月 
迹 分 布 满足 m" (a 





























Critic 算法 中 也 有 用 到 








H3 


























o 




















IRL 问题 可 以 被 型 





问题 : 
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LA REY 


实际 学 习 策 略 的 
s) x exp(Q^4(s,a)) (Ziebart et al., 2010)， 其 中 Q*4(S,, At) = 7r(9 Ae) + 
Es yt -t(r(sp, ap) + H(x(-|su)))] 表示 柔性 Q 函数 (Soft Q-Function), SERN 








个 


LA 














max 


trne log pe(7)]; 





0 


其 中 TE 是 提供 示范 的 专家 策略 ， 而 po(T) x p(So) IIT o P0 S41 1S, A)eY re (StA) 以 奖 


Bot. WW 


HATHA! (Expected Entropy-Regularized Discounted 


S:))) (8.13) 


, 


L| 
u 





8 最 优 策略 m*(a|s) 给 出 的 轨 








E Actor- 








如 下 一 个 极 大 似 然 估 计 CMaximum Likelihood Estimation, MLE) 


(8.14) 





8.3. 送 向 强化 学 习 方法 














ro(s, a) 的 参数 0 为 参数 ， 并 








依赖 MDP 的 初始 状态 分 布 和 


动态 变化 (或 称 状态 转移 )。po(7) 是 


示范 数据 以 轨迹 为 中 心 的 (Trajectory-Centric) 分 布 , 这 些 数据 是 从 以 状态 为 中 心 的 (State-Centric) 











TE 





得 来 的 ， 即 pe(r) ~ wg. AGED 
的 模型 polr) ox eXt=0 1'7e(St-Ae) (Ziebart et al., 2008) 。 参 数 
优化 参数 9。 与 之 前 的 过 程 类 似 ， 


























定性 转移 过 程 ， 




















我 们 在 这 里 可 以 引入 代价 函数 作为 累积 折扣 奖 














bu E 











p(Sui|S;, Ap) = 1， 其 简化 为 一 个 基于 能 量 
化 的 奖励 函数 可 以 按照 上 面 的 目标 来 

















W (Cumulative 








Discounted Rewards) co = 一 pan Yire(Si, A,) 的 负 值 ， 它 也 由 0 参数 化 。 那 么 MaxEnt IRL 可 以 


























看 作 是 使 用 玻 尔 
结果 ， 其 中 由 代价 函数 ce 给 出 的 














IT 








T 是 状态 - 动 
是 exp(—ce(7)) 对 所 有 








x 


符 








Z 
续 空间 的 情况 ， 准 确 


Z 的 精确 估计 只 适 




























































































曼 分 布 CBoltzmann Distribution) 在 以 轨迹 为 ， 


能 量 为 


pe(r) = zs exp(— 


Z 























(Sampling-Based) GCL 方法 。 

















Im 





GCL 使 用 
为 p(7)) 估计 Z, 并 采 
































0* = arg min 
D 


— arg min 
0 


— arg min 
0 








要 性 采样 CImportance Sampling) 来 以 一 个 新 
MaxEnt IRL 的 











ÉI: 











Erop [= log Po (r)] 








E. p[ce(7)] + log Z 











E. p[ce(7)] + log ( 




















困难 ， 因 为 通过 动 


























心 的 形式 下 对 示范 数据 建 模 的 








ce(7)), (8.15) 


EGE, Tfl colr) = 0, co(S Ar) 总 的 代价 函数 ， 配 分 函数 (Partition Function) 
合 环境 动态 变化 的 轨迹 的 
估计 配 分 函数 2 会 很 
于 小 规模 离散 情况 。 和 否则 我 们 需要 使 用 近似 估计 的 方法 ， 比 如 基于 也 





"nj, 














以 归 一 化 概率 。 对 于 大 规模 或 连 
态 规划 (Dynamic Programming) 对 
采样 的 


























了 


AN 














的 分 布 q(7)( 原 来 的 示范 数据 分 布 














(8.10) 
(8.17) 

| 
Eu ee Or J Ni 8.18 
[E iis 


























TESA QR 








得 到 的 , 而 





q(r^) 是 其 概率 。 因此 g 可 以 通过 最 小 化 g(7') M $ exp(—ce(r")) 











AA KL 散 度 来 优化 ， 从 而 更 新 9 以 学 习 g(r 











* : 
q = min 








文献 (Finn et al., 2016a) 提出 使 用 GAN 的 形式 来 
有 具体 形式 。 


j 一 个 分 布 去 拟 合 另 一 个 的 功能 : 





化 GCL， 与 GAIL 方法 类 似 但 是 有 不 同 的 


JER, GAN 中 的 辨别 器 也 可 以 实现 | 




















js lco(7)] + 





')， 其 等 价 表示 如 下 : 





Er~allog q(7)] 














解决 上 述 优化 问题 





p(T) 
p(t) + a(7) 





(8.19) 














， 它 使 用 GAN 的 结构 优 








(8.20) 
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我 们 可 以 在 这 里 将 








这 产生 了 GAN-GCL 方法 。 策 略 r 被 训练 
励 函 数 可 以 通过 优化 辨别 器 来 学 习 。 
赴 计 配 分 函数 的 。 如 果 达 到 了 最 优 情 况 ， 导 
— oL o Y r$ At) 来 得 到 最 优 奖励 函数 ， 而 最 优 策略 可 以 通 
F 除 直接 最 大 化 似 然 (Maximum Likelihood) 方法 外 的 方法 。 








决 MaxEnt IRL 问题 提供 了 一 利 








于 MaxEnt IRL 形式 的 GCL. 


去 exp( 一 co(7)) 





Do(T) = 


z exp(—co(T)) + a(7) 






















































































8.3.5 ”对抗 性 逆向 强化 学 习 





由 于 上 




















而 介绍 的 GAN-GCL 是 以 轨迹 为 














(8.21) 


以 最 大 化 Ro(r) = log(1 一 De(r)) — log Do(r)， 从 而 奖 
策略 通过 更 新 采样 分 布 q(r) 来 学 习 ， 这 个 采样 分 布 是 用 来 
BP 么 我 们 可 以 用 所 学 的 最 优 的 代价 函数 c = — Ri (T) 








q* 得 到 。GAN-GCL 为 解 








过 7* = 














心 CTrajectory-Centric) HJ, 这 意味 着 完整 的 轨迹 需 











要 被 估计 ， 相 比 于 估计 

















单个 状态 动作 对 会 有 较 大 的 估计 方差 。 对 抗 怕 








FE 逆向 强化 学 习 (Adversarial 

















Inverse Reinforcement Learning, AIRL) (Fu et al., 2017) 直接 对 单个 状态 和 动作 进行 估计 : 











概率 值 的 归 





























exp(fols, a)) 





Poss exp( fo 





(s, a)) + n(a|s) 























激活 函数 来 保证 。 
als) = A*(s,a) 给 出 了 最 优 策 略 的 优势 函数 (Advantage Function) 。 
1 缠 的 奖励 函数 减 去 


(8.22) 


其 中 r(als) 是 待 更 新 的 采样 分 布 而 fo(s, a) 是 所 学 的 函数 。 配 分 函数 在 上 面 式 子 中 被 忽略 了 ， 而 
性 在 实践 中 可 以 由 Softmax 函数 或 者 Sigmoid 4j H 
优 情 况 下 ，f*(s,a) = log mr* 
然而 ， 优 势 函 数 是 一 个 高 度 


经 证 明 ， 在 最 








个 基线 值 的 结果 。 文 献 (Fu et al., 2017) 论证 说 














奖励 函数 从 环境 动态 的 变化 ， 
解 纠缠 (Disentangle) 以 得 到 奖励 函数 : 
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不 能 被 鲁 棒 地 恢复 








Doe.s(s,a,s’) = 





ex 


Hoe. AE, fase d 

















通过 AIRL 来 从 优势 函数 











P(fo,6(s, a, s')) 





exp( fo 


其 中 还 需要 对 ho 进行 额外 拟 合 。 


o(,@, $')) + m(als) 


Rn. fog 被 限制 为 一 个 奖励 拟 合 器 go 和 一 个 塑 形 (Shaping) 项 ha: 





fo, o (5, a, 5°) = go(s, a) + Yhes") — ho(s) 





(8.23) 


(8.24) 


84 从 观察 量 进行 模仿 学 习 





8.4 ”从 观察 量 进行 模仿 学 习 
































察 的 动作 的 情况 
无 法 单纯 地 通过 
在 Ito 相关 文献 ! 














些 帧 





























中 的 信 





经 常见 到 从 视频 ! 











大 





角度 来 看 待 模仿 学 习 。 





处 ， 但 是 ， 要 注意 这 一 小节 的 方法 是 在 IfO 的 范 
里 的 O 方法 与 其 他 类 别 的 方法 大 多 是 了 
重 于 解决 不 可 观测 动作 的 问题 。 
乎 都 不 能 用 了 
况 。 一 个 对 于 学 习 这 种 类 型 的 示范 数据 





























FF 


HA HR. 








之 前 提 到 的 算法 ， 











算法 从 恢复 出 来 的 状态 
2018a) 通过 学 习 


最 优 策略 。 












































Jo fel 








KAR 


] 拓 展 了 GAIL NEZ, H 
部 分 状态 特征 而 不 需要 示范 者 
似 地 ， 文 献 (Eysenbach et al., 2018) 18 HE aH 
化 策略 和 状态 轨迹 间 的 互 
只 从 观察 量 而 不 是 真实 状态 





恩 得 到 的 ， 但 人 类 














学 习 的 例子 。 
而 ， 这 一 小 节 所 介绍 的 


相 比 于 























人 体 方法 和 之 





























JL 





- 动 

















解决 





然而 ， 这 种 方法 的 性 能 极 大 地 依赖 于 
情况 则 很 可 能 失败 。 相 反 ， 文 献 (Merel et al., 2017) 提出 只 i 


FE 交 的 关系 ， 





的 想法 是 先 从 状态 ! 
EX} (State-Action Pairs) 中 进行 策略 学 习 。 比 如 ， 文 献 (Torabi et al., 
并 使 用 BC 算法 来 找到 











大 











为 它 是 从 另 一 个 角度 来 处 型 


首先 ， 从 观察 量 进行 模仿 学 习 〈Imitation Learning from Observation, IfO) 是 在 没 
进行 的 模仿 学 习 。IfO 的 一 个 例子 是 从 视频 中 学 习 ， 其 : 
仿 旧 能 够 从 视频 中 学 习 ， 

其 他 前 面 介绍 过 



































完整 可 观 














物体 的 真实 动作 值 是 
比如 模仿 动作 ， 因 此 ， 
的 方法 ，IfO 从 另 一 个 
前 介绍 的 方法 有 不 可 避免 的 重生 之 
孝 之 下 的 。 当 你 阅读 这 一 小 节 时 ， 应 当 记得 ， 这 
































只 包含 部 分 可 观测 或 不 可 观测 动作 
































通过 


























tH 












































Adaption) 方法 从 观察 量 








提取 特征 来 保 订 


学 习 。 比 如 
E 专 家 








恢复 动作 ， 再 采 ) 


个 状态 转移 〈State Transition) 的 动态 模型 来 恢复 动作 ， 
F 所 学 动态 模型 的 好 坏 ， 对 于 状态 转移 ， 
状态 〈 或 状态 的 特征 值 ) # 
4 通过 采集 运动 示范 数据 的 状态 来 学 习 控 制 策略 ， 展 示 了 只 需要 
的 具体 动作 对 对 抗 式 模仿 〈Adversarial Imitation) 也 是 足够 的 。 相 
各 应 该 可 以 控制 智能 体 到 达 哪 些 状 态 ， 
zi (Mutual Information) 来 仅仅 通过 状态 训练 策略 。 
， 文 献 (Stadie et al., 2017) 通过 域 自 适 应 

















(Experts) 和 新 手 (Novices) 在 


























的 示范 数据 的 情 
j 标 准 的 模仿 学 习 


























模仿 学 习 的 ， 




















有 噪声 的 
, 迹 来 学 




















K| 














而 可 通过 最 大 
也 有 一 些 其 他 研 


(Domain 




















下 。 然 而 ， 只 使 ) 
信息 都 被 忽略 了 。 


示范 ， 








为 了 提供 Ito 方法 的 一 
型 (Model-Based) 方法 ; (2) 无 模型 (Model-Free) 方法 。 





方法 吻合 。 随 后 








8.4.1 ”基于 模型 方法 








类 似 于 基于 模型 的 强化 学 习 《〈 如 第 9 音 )， 如 果 环 境 模型 可 以 
寺 它 可 以 高 效 地 做 出 规划 。 








个 模型 可 能 对 学 习 过 程 有 利 ， 





个 清楚 的 # 


状态 或 状态 特征 在 训练 : 

















可 能 需要 大 量 的 环境 交互 ， 


同一 个 特征 空间 














K| 











为 任何 来 E 


MER 




































































的 一 种 主要 的 分 类 


匡 架 ， 我 们 把 文献 中 的 Ito 方法 总 结 为 两 大 类 : (1) 基于 模 
这 也 与 强化 学 习 ! 
献 中 的 算法 作为 例子 。 


， 我 们 讨论 每 一 类 方法 的 特点 ， 并 提出 相关 文 











K| 


























KM 














FE! 














过 基于 模型 方法 学 习 。 根 和 





模仿 的 是 一 系列 的 动作 而 非 单个 动作 ， 所 以 它 难 












































] 较 低 的 消耗 来 精确 





时 T 
fod, XX 























1 于 模仿 学 习 在 与 环境 交互 的 过 
E 以 避免 地 涉及 环境 的 动态 变化 ， 而 这 可 以 通 
中 不 同 的 动态 模型 类 型 ， 基 于 模型 的 IfO 方法 可 以 被 分 类 为 : CDD 逆向 
动态 模型 (Inverse Dynamics Models) 和 (2) 正 向 动态 模型 (Forward Dynamics Models). 
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第 8 章 模仿 学 习 





逆向 动态 模型 ; 一 个 逆向 动态 模型 是 从 状态 转移 (055 Si41)} 到 动作 {Ar} 的 映射 (Hanna 
et aL, 2017)。 在 这 一 类 中 的 一 个 工作 如 文献 (Nair et al., 2017) 提出 的 方法 ， 它 通过 人 类 操作 绳子 
从 一 个 初始 状态 到 目标 状态 的 一 系列 图 像 ， 来 学 习 预 测 强 结 操作 中 的 一 系列 动作 ， 这 需要 学 习 如 
下 的 一 个 像素 级 〈Pixel-Level) 的 逆向 动态 模型 ; 









































As = Molli, I41) (8.25) 











以 上 面 的 任务 为 例 ， 其 中 A, 是 通过 逆向 动态 模型 M 以 输入 的 一 对 图 片 D Dua. 所 预测 的 动作 ， 
模型 由 0 参数 化 ， 卷 积 神经 网 络 被 用 于 学 习 逆 向 动态 模型 。 机 器 人 通过 探索 策略 自动 地 收集 绳 结 
操作 的 样本 ， 收 集 到 的 样本 被 用 于 学 习 逆 向 动态 模型 ， 随 后 机 器 人 使 用 所 学 的 模型 和 来 自 人 类 示 
范 的 期 望 状态 进行 规划 。 学 到 的 逆向 动态 模型 M$ 实际 可 以 作为 策略 来 根据 期 望 帧 I8 选择 与 示 
范 相 似 的 动作 : 




































































































































































A; = Mg (it, 12,1) (8.26) 


另 一 个 工作 叫 作 增强 逆向 动态 建 模 〈Reinforced Inverse Dynamics Modeling, RIDM) (Pavse et al., 
2019)， 它 在 使 用 预定 义 的 探索 策略 所 收集 的 样本 进行 训练 的 基础 上 ， 使 用 一 个 增强 的 后 训练 
(Post-Training) 过 程 来 微调 所 学 的 逆向 动态 模型 。 如 上 所 述 ， 预 训练 的 逆向 动态 模型 被 看 作 是 强 
化 学 习 设 置 下 的 一 个 智能 体 策略 ， 这 时 可 以 用 一 个 稀 玻 奖励 函数 RR 来 基于 强化 学 习 对 这 个 策略 
进行 微调 : 


















































0* — arg nux R(S,, MY" (S,,88,4)) (8.27) 





















































Kp MI 是 预 训练 模型 ， 在 这 里 通过 强化 学 习 的 方式 来 进行 微调 ， 微 调 目标 是 最 大 化 奖励 函数 
Ro 


























协 方差 矩阵 自 适 应 进化 策略 (Covariance Matrix Adaptation Evolution Strategy, CMA-ES) 或 
者 贝 叶 斯 优化 (Bayesian Optimization, BO) 方法 可 以 用 于 在 低 维 的 情况 下 优化 模型 。 然 而 ， 作 
者 假设 每 个 观察 量 转移 (Observation Transition) 都 可 以 通过 单个 动作 实现 。 为 了 消除 这 个 不 需要 
的 假设 ， 文 献 Pathak et al., 2018) 允许 智能 体 执行 多 个 动作 直到 它 与 下 一 个 示范 帧 足够 接近 。 

上 面 介 绍 的 算法 试图 对 每 个 示范 状态 使 用 逆向 动态 模型 从 而 实现 对 策略 的 恢复 。 从 观察 量 进 
行 行为 克隆 (Behavioral Cloning from Observation, BCO) 算法 由 文献 (Torabi et al., 2018a) 提出 ， 
这 个 算法 则 试图 使 用 完整 的 观察 量 -动作 对 〈Observation-Action Pair) 和 所 学 的 逆向 动态 模型 来 恢 
复 示 范 数据 集 ， 然 后 用 常规 模仿 学 习 的 形式 使 用 这 个 增强 后 的 示范 数据 集 来 学 习 策 略 ， 如 图 8.5 
所 示 。 
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开始 (^ 从 观察 量 进 行 行为 克隆 (Behavioral Cloning from Observation, BCO) ) 
H 
> T 
人 | 将 数据 加 入 
To Ti An 
Tr, An 

纯 状 态 示范 D gomo Al demo 

~ Re 











图 8.5 ”从 观察 量 进行 行为 克隆 ( Behavioral Cloning from Observation, BCO ) 的 学 习 框架 ， 改 编 自 
文献 (Torabi et al., 2018a) 














文献 (Guo et al., 2019) 提出 使 用 一 个 基于 张 量 的 (Tensor-Based) 模型 来 推理 专家 状态 序列 相 
应 的 未 观测 动作 〈 即 一 个 IO 问题 )， 如 图 8.6 所 示 。 智 能 体 的 策略 通过 一 个 结合 了 强化 学 习 和 模 
仿 学 习 的 混合 目标 来 优化 : 









































9* = arg min Lai (7(als;4)) — Ecge ge, p log re(M (S7, Str1)|Se)] (8.28) 


t+1 


























Lg 是 常规 强化 学 习 的 损失 项 , 其 策略 x HO BBL. D 是 示范 数据 集 , 而 第 二 项 是 行为 克隆 
损失 函数 ， 用 于 最 大 化 基于 专家 状态 ss 和 逆向 动态 模型 M 预测 专家 动作 的 可 能 性 (Likelihood)。 
文献 (Guo et al., 2019) 提出 一 种 结合 RIDM 和 BCO 的 方法 。 这 里 的 逆向 动态 模型 M 是 一 个 低 秩 
的 《Low-Rank) 张 量 模型 ， 而 非 像 上 面 介绍 的 其 他 方法 中 的 参数 化 (Parameterized) 模型 ， 它 在 
某 些 情况 下 比 深 度 神经 网 络 有 优势 。 类 似 于 RIDM, 这 个 方法 需要 提供 奖励 信号 (Reward Signals ) 
来 得 到 强化 学 习 损 失 函 数 。 
















































































=> 





















































策略 学 习 专家 动作 推理 


N 





8.6 混合 强化 学 习 和 专家 状态 序列 的 学 习 框 架 ， 改 编 自 文 献 (Guo et al, 2019) 








正 向 动态 模型 ， 正 向 动态 模型 是 从 状态 -动作 对 {Se Av) } 到 下 一 个 状态 {S141} 的 映射 。 一 
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个 





























(Action Inference) 模块 ， 





模块 根据 当前 状态 S, 和 潜在 动作 z 预测 下 一 











w* = arg min 


型 的 在 IfO 中 使 用 正 向 动态 模型 
from Observation, ILPO) (Edwards et al., 2018). ILPO 在 其 学 
(Latent Policy) 网 络 和 动作 重 映射 (Action Remapping) 网络 。 
它 将 状态 S, 映射 到 一 个 潜在 动 




















这 是 对 于 潜在 动态 模块 Go 的 ， 而 


0* = arg max E 


是 对 于 潜在 策略 re(:|z) 而 言 的 ， 其 中 D 是 专家 示范 数据 集 。 
略 网 络 产生 
j 来 将 潜在 动作 关联 到 真实 动作 。 使 | 











然而 ， 由 于 潜在 策 
映射 网 络 被 / 


























Hr 


ilf 
习 过 程 中 很 高 














效 (Efficient)。 


8.4.2 ”无 模型 方法 











除了 使 用 所 学 动态 模型 进行 基于 模型 的 IfO 方法 ， 也 有 































































































4 的 方法 叫 作 从 观察 量 模仿 潜在 策略 (Imitating Latent Policies 
学 习 过 程 中 使 用 两 个 网 络 : 潜在 策略 
潜在 策略 网 络 包 括 一 个 动作 推理 
Æ (atent Action) z， 而 一 个 正 向 动态 
个 状态 S441。 这 两 个 模块 的 更 新 规则 如 下 : 
bgs,ss, yn llGu (St. 2) — Sk l2] (8.29) 
2 
S$) ~D ls S 16(21S2)Gu(S?, z) — Sira | (8.30) 
2 
的 潜在 动作 可 能 并 不 是 真正 的 环境 动态 中 的 真实 动作 ， 动 作 重 













































































些 无 模型 fO 方法 ， 























主要 的 方法 类 别 , 即 不 使 用 模型 进行 学 习 。 对 了 











常规 强化 学 习 设 置 ， 
































































































































高 度 
的 情况 一 样 。 对 于 无 模型 IO 有 两 个 主要 的 方法 : (1) 生成 对 





j 潜 在 动作 不 需要 在 学 习 潜在 模型 和 潜在 策略 的 
与 环境 进行 交互 ， 而 动作 网 络 重 映射 只 需要 跟 环 境 交 互 有 限 的 次 数 ， 这 使 得 整个 算法 在 学 








这 属于 另 一 个 























复杂 的 动态 变化 , 模型 可 能 很 难 


学 习 , 这 与 在 












































抗 (Generative 











































































































Adversarial) 方法 和 (2) 奖励 函数 工程 (Reward Engineering) 方法 。 其 中 生成 对 抗 方 法 类 似 于 常 
规模 仿 学 习 中 的 ， 但 是 只 有 状态 作为 示范 。 
生成 对 抗 方 法 : 一 种 基本 的 生成 对 抗 IfO 的 框架 是 由 之 前 介绍 的 在 常规 模仿 学 习 设置 下 IRL. 
中 的 GAIL 方法 改进 的 。 辨 别 嚣 (Discriminator〉 只 判别 和 比较 当前 策略 探索 到 的 样本 的 状态 或 
专家 示范 数据 中 的 状态 ， 而 非 对 状态 -动作 对 进行 判别 ， 于 是 给 出 以 下 损失 函数 : 
Loss = Es~ Dp [Vw log(D..(s))] + Es~ De [Vo log(1 = Du(s))] (8.31) 
其 中 卫 是 用 当前 策略 探索 到 的 样本 集 ， 而 De 是 示范 数据 集 。 不 同 的 具体 算法 基于 以 上 有 不 同 的 
(体形 式 和 修正 方式 。 
举例 来 说 ， 文 献 (Merel et al., 2017) 发 展 了 一 个 GAIL 的 变 体 ， 它 只 使 用 部 分 可 观测 的 状态 特 
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征 而 不 使 ) 
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动作 来 给 人 类 提供 类 似 人 的 〈Human-Like) 运动 轨迹 ， 








通过 GAN 的 结 





构 。 它 类 似 于 


8.4 











控制 器 ， 它 基于 一 个 低 阶 的 《Low-Level) 控 
动 特征 。 状 态 和 动作 的 轨迹 在 一 个 随机 
的 生成 器 《Generator)。 状 态 - 动 作对 随后 被 转化 成 特 行 
示范 数据 和 采集 到 的 数据 被 假设 在 同一 个 特 生 
器 评估 来 得 到 这 个 数据 
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Loss — 




















EEN 
A 


中 z, 2° 是 s, se BHO ST f 














4z7~8,8s~D [Vo log(Du (25 c))] T 

















4 





于 模型 的 IfO 中 的 RIDM 方法 和 混合 (Hybrid) 强化 学 习 方 法 ， 也 使 


制 器 ， 这 个 低 阶 控 和 
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De, mij €, C? 是 表示 不 同行 为 的 


WR (Henderson et al., 2018) FEH 


AL 
变量 。 
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Aas 








Framework), Jai 
来 恢复 奖励 -策略 的 联合 选项 (Joint Reward-Policy Options), wB 

















只 使 

















composition) ， 它 不 仅 可 以 在 简单 的 任务 上 学 习 
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个 基于 选项 的 一 般 策略 CA General Policy over Options ). 

















选项 策略 
To 


8.7 OptionGAN 的 结构 ， 改 编 














专家 采集 样本 
(状态 , 动作 , 奖励 
































zense,se~De 




















3 了 一 个 强化 学 习 模 块 和 
一 个 模仿 学 习 模 块 ， 但 是 以 一 种 层次 化 的 结构 使 用 的 。 强 化 学 习 模 块 是 一 个 高 阶 的 (High-Level) 











| 器 使 用 BC 方法 来 采集 人 类 的 运 
























































HI] OptionGAN 使 月 
可 观测 状态 








k ( 
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Wy 
判别 器 0 
NE 
判别 器 


Me 


GEXGUPCT EG 
观测 数据 (状态 ) 





生 策 略 or 和 环境 的 交互 中 被 采集 ， 这 对 应 于 GAN 结构 ! 
E z， 其 中 动作 可 能 被 除去 。 根 据 原文 所 述 ， 
EIE] (Feature Space) 下 。 示 范 或 生成 数据 由 辨别 
属于 示范 数据 的 概率 。 辨别 器 的 输出 值 随后 被 用 作 奖 励 来 通过 强化 学 习 更 














[Vo log(1 — D, (z?, c*))] 






















Henderson et a 


2018) 


HES t. 


新 模仿 策略 ， 类 似 于 GAIL 中 的 式 (8.12)。 如 果 学 习 多 种 行为 的 (Multi-Behavior) 策略 ， 那 么 可 
变量 (Context Variable)。 这 个 辨别 器 的 损失 函数 可 以 写作 : 


(8.32) 


E. Tfj s, 5° 分 别 来 自强 化 学 习 探 索 得 到 的 数据 集 D 和 专家 示范 数据 





层 强 化 学 习 中 的 选项 框架 (Options 
的 生成 对 抗 式 结构 (Generative Adversarial Architecture ) 
8.7 所 示 。 经 过 策略 分 解 〈De- 
好 ， 而 且 对 于 复杂 的 连续 控 人 
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Ab 2H. 
IF 


Hes 
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第 8 章 模仿 学 习 








图 8.7 中 IO 方法 的 一 个 潜在 问题 是 ， 








似 的 状态 分 布 ， 不 意味 着 对 于 模仿 策略 和 专家 策 
由 文献 (Torabi et al., 2019d) 提出 的 一 个 简单 例子 是 ， 在 一 个 环 状 的 〈Ring-Like) 环境 中 ， 两 个 智 


即使 所 学 的 最 优 策略 能 够 生成 一 个 与 专家 策 


各 非常 类 
略 的 所 有 状态 ， 它 相应 的 动作 都 是 完全 相同 的 。 























能 体 以 相同 的 速度 但 是 不 同 的 方向 移动 〈《 即 一 个 为 顺 时 针 、 另 一 个 为 逆 时 针 )， 这 将 导致 相同 的 











状态 分 布 ， 即 使 它们 的 行为 与 彼此 相反 《〈 即 在 给 定 状 态 下 有 不 同 的 动作 分 布 )。 





一 种 解决 上 述 动作 分 布 不 匹配 问题 的 方法 是 ， 给 辨别 器 输入 一 系列 状态 而 非 

















单个 状态 ， 如 











文献 (Torabi et al., 2018b, 2019b) 所 提出 的 一 个 相似 算法 ， 它 只 是 将 辨别 器 的 输入 改 为 状态 转移 
{(Se, .Se+1)} 而 非 单 个 状态 。 这 时 辨别 器 的 损失 函数 将 变 为 


























Ep[V log( Du (St, St+1))] + 





其 中 状态 序列 在 实践 中 也 可 以 选择 长 度 大 于 2 
另 一 个 





























到 的 图 像 作为 策略 的 状态 输入 , 来 在 强化 学 习 智能 体 中 构建 类 似 于 人 和 动物 的 基 必 
(Proprioception-Based Control) 的 模型 。 由 于 本 体感 觉 特征 
层 感知 机 CMulti-Layer Perceptron，MLP)， 而 非 一 个 卷 积 字 
CNN) 来 表示 ， 而 辨别 器 仍旧 以 来 自 探索 样本 和 专家 示范 的 序列 观测 图 像 为 输入 ， 如 图 






































低 维 本 体感 觉 特征 也 使 得 整个 学 习 过 程 更 高 效 。 























ipe [Vu log(1 — Du (St, St+1))] 














(8.33) 


的 。 
| 文献 (Torabi et al., 2019c) 提出 的 工作 使 用 本 体感 觉 〈Proprioceptive ) 特征 而 非 观 察 

















的 低 维 性 质 , 策略 可 以 用 一 个 简单 的 多 
经 网 络 (Convolutional Neural Network, 
8.8 所 示 。 













































































本 体感 觉 特征 (5.) ) 3 Env 
(比如 关节 角度 ) h 
图 8.8 使 用 本 体感 觉 状态 ， 只 从 观察 量 进 行 模仿 学 习 。 图 片 改编 自 文 献 (Torabi et al, 2019c) 

















如 第 7 章 中 所 提 及 的 ， 较 低 的 样本 效率 (Sample Efficiency) 是 当前 强化 学 习 算法 的 一 个 主 
也 存在 。 由 于 生成 对 抗 的 方法 属于 IRL 的 范畴 ， 

















要 问题 ， 这 在 模仿 学 习 和 IO 领域 

















介绍 





EÉ 






































的 这 些 方法 可 能 有 8.3 节 所 提 到 的 较 大 计算 消耗 的 问题 。 这 些 对 抗 式 模仿 学 习 算 法 通常 需要 大 

















量 的 示范 样本 和 和 壕 代 学 习 来 成 功 学 会 模仿 示范 孝 
































文献 (Torabi et al., 2019a) 提出 在 策略 学 习 中 使 





LQR) (Tassa et al., 2012) 作为 一 种 基于 轨迹 的 《Trajectory-Centric) 强化 学 习 方法 ， 而 这 














得 真实 机 器 人 的 模仿 学 习 成 为 现实 。 























的 行为 。 为 了 进一步 提高 上 述 方法 的 样本 效率 ， 


线性 二 次 型 调节 器 (Linear Quadratic Regulators, 








了 可 能 使 

















上 述 方法 主要 基于 示范 数据 空间 和 模仿 才 





学 习 的 空间 有 一 致 性 的 基本 假设 。 然 而 ， 当 这 两 个 



































空间 不 匹配 时 ， 比 如 在 三 维 空间 中 由 于 提供 
模仿 学 习 方 法 可 能 会 有 性 能 上 的 下 降 。 
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观察 量 的 摄像 机 位 置 不 同 而 造成 的 视角 变化 ， 一 般 的 
示范 和 模仿 的 空间 差异 可 能 在 动作 空间 ， 也 可 能 在 状态 空 

















84 从 观察 量 进行 模仿 学 习 








间 。 对 于 动作 空间 的 差异 ,文献 (Zotna et al., 2018) 提出 使 / 
状态 替代 连续 不 断 的 状态 〈Consecutive States) 来 作为 辨别 


























数据 集 增 强 
确实 展示 出 了 在 模仿 者 策略 与 示范 数 所 
5, Eun ET 























来 自 不 同 视 


| 








况 下 指 不 同 的 视角 。 






































情 
JJ 
JL 


个 








经 网 络 
这 领域 也 有 一 些 其 











提 及 的 视角 变化 ， 文 献 (Stadie et al., 2017) 提出 
的 样本 ,将 辨别 器 最 初 的 几 个 
了 域 泥 淆 (Domain Confusion) 的 想法 来 学 习 域 无 关 的 〈Domain Agnostic) 特征 ， 
在 辨别 器 的 最 初 神经 网 络 层 〈 作 为 一 个 特 行 
分 类 器 混淆 被 最 小 化 ， 因 而 这 也 利 




















成 对 有 任意 时 间 间 隔 CTime Gaps) 的 














B o 





















































器 的 输入 ， 这 可 以 看 作 是 用 噪声 进行 
(Dataset Augmentation) ， 从 而 有 更 鲁 棒 和 通用 的 表 : 
居 有 不 同 动 作 空间 的 情况 下 














在 他 们 的 实验 ! 





， 这 个 方法 











的 性 能 提升 。 而 对 状态 空间 的 差 





































































































经 网 络 层 的 输出 





ERE aS) 混淆 被 最 大 化 ， 但 对 
用 了 对 抗 式 训练 的 框架 。 在 训练 之 后 ， 提 取 器 (辨别 器 的 最 初 
E) 所 学 特征 对 视角 变化 有 了 不 变性 。 

EFE. Sun et al. (2019b) 提出 IfO ! 


使 用 一 个 分 类 器 〈Classifier) 来 区 分 
作为 分 类 器 的 输入 。 这 个 方法 使 用 


























其 中 域 在 这 种 
































第 一 个 可 证 明 高 效 的 算法 ， 叫 作 正 向 











对 抗 式 模仿 学 习 (Forward Adversarial Imitation Learning，FAIL)， 它 可 以 用 跟 所 有 相关 参数 有 多 





项 式 (Polynomial) 数量 关系 的 样本 量 来 学 习 


Observations) 的 数量 














个 近 最 优 的 策略 ， 而 不 依赖 于 单 
Eo FAIL 中 的 极 小 化 极 大 《Minimax) 方法 学 习 一 个 策略 ， 这 个 策略 能 够 根 


























观察 量 (Unique 





据 之 前 时 间 步 的 策略 匹配 下 一 个 状态 的 概率 分 布 。 近 来 ， 一 个 称 为 动作 指导 性 对 抗 式 模仿 学 习 


CAction-Guided Adversarial Imitation Learning, AGAIL) H 





























示范 


ee 




















(Guided Q-Network) 来 以 一 利 
中 (s°, a9) 表示 专家 示范 样本 。 





奖励 函数 工程 方法 : 生成 对 抗 方法 自然 地 提供 了 可 以 让 模仿 策略 以 强化 学 习 方 式 训练 的 奖励 





的 状态 和 不 完整 动作 信息 ， 因 而 是 Io 跟 传统 IL 的 
单个 状态 ， 类 似 于 之 前 介绍 的 文献 (Merel et al., 2017) 的 方法 。 此 外 ， 它 还 
监督 学 习 的 方式 学 习 p(a*|a ~ 7(s*)) 的 真实 后 验 (Posterior)， 其 























昌文 献 (Sun et al., 2019a) 提出 ， 它 试图 利 

















个 结合 方法 。 辨 别 器 被 








j 来 区 分 
一 个 指导 性 Q 网 






























































信号 。 除 了 生成 对 抗 方法 ， 也 有 像 奖励 函数 工程 (Reward Engineering) 的 方法 来 解决 无 模型 fO. 











励 函 数 工 程 指 需要 人 为 设计 奖励 函数 来 以 强 
励 函 数 工 程 将 模仿 学 习 的 监督 学 习 方式 转化 为 一 个 强化 学 习 
个 奖励 函数 。 需 要 注意 的 是 ， 人 为 设计 的 奖励 函数 不 需要 是 真 
更 像 是 一 个 基于 示范 数据 集 或 人 




































































事实 上 ， 之 前 小 节 中 提 到 的 基于 模型 的 Ito 中 的 RDM 方法 是 一 种 奖励 函数 工程 方法 。 这 里 的 奖 


























化 学 习 的 方式 从 专家 示范 
问题 ， 通 ; 





学 习 模 仿 策略 的 方法 。 奖 























过 给 强化 学 习 智能 体 构建 一 





















































出 函数 可 以 








SEAT 
FE 务 先 验 知识 (Prior Knowledge) HY fii 
2018) 提出 使 用 预测 的 下 一 个 状态 和 示范 者 的 下 一 个 真实 状态 间 的 
作为 奖励 函数 ， 随 后 根据 这 个 奖 





生 专 家 策略 的 奖励 函数 ， 而 
十 。 比 如 , 文献 (Kimura et al., 





KRES (Euclidean Distance? 
一 般 强 化 学 习 的 方式 来 学 习 一 个 模仿 策略 。 





另 一 种 奖励 函数 工程 方法 称 为 时 间 对 比 网 络 (Time-Contrastive Networks, TCN), 由 文献 (Ser- 





manet et al., 2018) 提出 ， 如 图 8.9 所 示 。 为 了 














解决 前 


























的 行为 很 重要 ，TCN 方法 通过 学 习 

















络 处 
































个 表示 





lm. 





个 视角 不 变 的 表示 来 获 了 








四 提 及 的 多 视角 问题 ,而 这 个 问题 对 于 学 习 人 

区 物体 之 间 的 关系 ， 它 通过 

里 从 不 同 视角 获得 的 几 个 (原文 中 是 两 个 ) 同步 的 相机 视野 。 对 抗 式 训练 因此 可 以 用 在 嵌入 

式 表示 空间 (Embedded Representation Space)， 而 非 原 来 的 状态 空间 〈 如 其 他 方法 : 
NAE 





TCN 网 


























所 用 的 )。 这 














NZE (Triplet) 损失 函数 和 TCN WAN (Embedding Network) 来 学 到 的 。 这 
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模仿 学 习 


$ 
oo 
dd 



































文献 (Sermanet et al., 


个 三 重 损失 被 设 定 为 在 视频 示范 数据 
而 这 些 近邻 满足 有 相似 的 视觉 特 






































图 8.9 E SER 00s (TCN ) 的 学 习 相 


只 从 观察 量 进行 的 模仿 学 习 ( rp BILE EE RUN (t 
































同时 吸引 (Attract) H 














下 同时 发 生 的 帧 ， 这 些 帧 在 嵌入 空间 中 
示范 视频 以 自 监督 CSelf-Supervised Learning) 的 方式 进行 学 
中 描述 的 工作 ， 奖 励 函数 定义 为 同一 时 间 步 下 示范 状态 
在 蔡 入 空间 而 不 是 状态 空间 。TCN 被 设计 成 用 
Dwibedi et al. (2018) 扩展 了 TCN WTE, fi 
模式 (Patterns in Trajectory) 。 
频 帧 中 基于 示范 数据 来 学 习 网 入 函数 ， 从 而 解决 难以 探 
Pitfall， 这 些 任 务 在 第 7 章 的 探索 挑战 
PEAR. BETTI MRA AN EK 

如 之 前 所 介绍 的 ， 可 以 用 一 个 分 类 器 来 
提出 ， 分 类 器 也 可 以 用 于 预测 示范 数据 
练 方式 (Misra et al., 2016). 3€ 
时 ， 在 之 前 生成 对 抗 方法 的 描述 
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提 到 。 


270 


此 ， 模 仿 策略 能 够 有 




















自 监督 模仿 ， 





， 它 以 一 种 自 监督 式 的 学 习 








bservation Embedding )o 


驱散 CDisperse) 连续 帧 的 短 时 近邻 (Temporal Neighbors), 
征 但 是 不 同 的 实际 动态 状态 ， 
相同 的 动态 状态 。 















































H 











文献 (Aytar et al., 2018) 也 采 


















































习 。 类 似 文献 (Kimura et al., 














Bb 些 不 同 视 角 
无 标签 的 人 类 





智能 体 实 际 状态 的 欧 氏 距离 ， 但 
单 帧 状态 内 入 (Single Frame State Embedding?) 。 
其 可 以 对 多 个 帧 进行 嵌入 ， 从 而 更 好 地 表示 轨迹 闪 
了 一 个 相似 的 方法 ， 从 YouTube 视 
， 比 如 Montezuma's Revenge 和 
闵 解决 较 小 的 变化 ， 比 如 视频 的 失真 和 
AN 度 (Measurement) 也 被 月 






































见 角 的 观察 量 。 文 献 (Goo et al., 2019) 




















励 函数 可 以 根据 所 学 的 
， 状 态 空间 的 不 匹配 


类 器 来 定义 ， 并 月 



































| 练 模仿 策略 ， 而 非 使 / 


种 打 乱 学 习 〈(Shuffle-and-Learn) 的 训 
日 于 训练 模拟 者 策略 。 同 
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昌 作 奖励 函数 。 





视角 不 同 造 成 ， 可 以 通过 不 变 的 
特征 表示 CInvariant Feature Representation) 来 解决 。 然 而 ， 它 也 可 以 用 一 个 定义 为 示范 状态 和 模 
仿 者 状态 在 表征 空间 下 的 欧 氏 距离 作为 奖励 函数 ， 来 计 
态 和 模仿 者 状态 作为 输入 时 的 输出 值 为 奖励 ， 这 在 文献 (Gupta et al., 2017; Liu et al., 2018) 中 都 有 




















] 辨 别 器 并 以 示范 状 





8.5 概率 性 方法 





8.43 ”从 观察 量 模仿 学 习 的 挑战 


根据 以 上 所 提 及 的 Ito 中 


文献 (Torabi et al., 2019d) 所 提 到 的 问题 。 


























的 方法 ， 智 能 体能 够 只 从 观察 到 的 状态 来 学 习 策略 ， 但 是 仍旧 存在 















































。 具象 不 匹配 (Embodiment Mismatch): 具象 不 匹配 通常 用 来 描述 外 观 ( 对 于 基于 视觉 的 控 





























制 )、 动 态 过 程 和 其 他 特征 在 模仿 者 域 和 示范 者 域 间 的 差异 。 一 个 典型 的 例子 是 让 机 械 臂 




















模仿 人 的 手臂 执行 动作 。 由 于 控制 动力 学 和 观察 智能 体 的 视角 会 有 显著 的 差别 ， 所 以 这 样 








的 模仿 学 习 过 程 可 能 很 难 实现 。 即 使 是 确认 机 器 人 和 人 的 手臂 是 否 在 同一 个 状态 都 会 有 困 





难 。 一 个 解决 这 个 问题 






































的 方法 是 学 习 隐藏 对 应 关系 (Correspondences ) 或 潜在 表示 (Latent 


























Representations), 这 个 关系 或 表示 能 够 对 两 个 域 的 差异 产生 不 变性 , 然后 基于 这 个 关系 或 者 



























































视角 差异 : 在 上 面 提 到 上 




















于 视觉 的 控制 ， 由 于 示范 数据 由 相机 采集 的 图 像 或 视频 给 出 ， 视 角 的 差异 可 能 导致 模仿 














在 所 学 的 表征 空间 内 进行 模仿 学 习 。 一 个 用 来 解决 这 个 问题 的 IfO 方法 (Gupta et al., 2017) 
自动 编码 器 (Autoencoder) 来 学 习 不 同 的 具象 之 间 的 对 应 关系 以 一 种 监督 学 习 的 方式 。 自 
动 编码 器 被 训练 使 得 编码 后 的 表示 对 有 具象 特征 有 不 变性 。 另 一 个 方法 (Sermanet et al., 2018) 
使 用 少量 人 类 监督 和 无 监督 的 学 习 方 式 来 学 习 对 应 关系 。 



















































































的 几 个 方法 中 ， 比 如 TCN 和 一 些 其 他 基于 模型 的 IfO 方法 ， 对 于 基 
a 







































































略 表现 显著 下 降 。 通 常 来 讲 ， 需 要 有 一 个 在 对 视角 不 变 的 〈Viewpoint Invariant) 空间 中 表 
征 状态 的 编码 模型 (Encoding Model)， 如 文献 (Sieb et al., 2019) 中 提 到 的 ， 或 者 一 个 能 够 根 






























































据 某 一 帧 预测 具体 视角 的 分 类 器 ， 如 文献 (Stadie et al., 2017) 所 提 到 。 另 一 种 试图 解决 这 个 

















问题 的 IfO 方法 是 去 学 习 一 个 背景 转化 (Context Translation) 模型 ， 从 而 根据 一 个 观察 量 预 



































测 它 在 目标 背景 中 的 表示 (Liu et al., 2018)。 这 个 转化 是 通过 包含 源 背景 和 目标 背景 下 的 图 











像 数据 来 学 习 的 ， 而 任务 是 将 源 背景 转化 到 目标 背景 。 这 需要 收集 源 背景 和 目标 背景 下 相 


似 的 样本 来 实现 。 


8.5 ”概率 性 方法 






























































除了 使 用 神经 网 络 的 参数 化 方法 ， 许 多 概率 推理 方法 也 可 以 被 用 于 模仿 学 习 ， 尤 其 是 在 机 器 
人 运动 领域 ,这 些 方法 包括 高 斯 混合 回归 (Gaussian Mixture Regression, GMR )(Calinon,2016)、 动 态 











运动 基 元 (Dynamic Movement 























Primitives, DMP) (Pastor et al., 2009)、 概 率 性 运动 基 元 (Probabilistic 





Movement Primitives, ProMP (Paraschos et al., 2013)、 核 运动 基 元 (Kernelized Movement Primitives, 
KMP) (Huang et al., 2019)、 高 斯 过 程 回 归 (Gaussian Process Regression, GPR) (Schneider et al., 
2010)、 基 于 GMR 的 高 斯 过 程 Jaquier et al., 2019) 等 。 由 于 本 书 主要 是 介绍 使 用 深度 神经 网 络 参 























数 化 的 深度 强化 学 习 ， 所 以 我 
结合 起 来 本 身 就 不 是 平庸 的 《 
然而 ， 即 使 将 概率 性 方法 




































































们 将 仅 简 单 介 绍 这 些 概率 性 方法 ， 而 将 概率 性 方法 和 深度 强化 学 习 
Non-Trivial)， 不 像 在 本 章 中 介绍 的 其 他 方法 那样 直接 。 
用 于 深度 强化 学 习 任 务 可 能 是 不 容易 实现 的 ， 概 率 性 方法 由 于 其 一 
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第 8 章 模仿 学 习 
些 优点 还 是 很 值得 研究 的 ， 有 具体 表现 讨论 如 下 。 
不 同 于 深度 神经 网 络 给 出 确定 性 
的 协 方差 矩阵 〈Covariance Matrices) 编码 了 预测 轨迹 的 变化 性 。 
(ORE AY 
证 安全 ， 每 个 指 
概率 论 的 文 持 通常 有 解析 解 ， 这 与 基于 
性 方法 能 够 在 数据 量 较 小 时 用 较 短 时 间 求 解 。 


未 见 过 上 
















































































的 预测 结果 ， 由 GRM、ProMP 和 KMP 计算 得 到 预测 分 布 









































































































































而 这 在 使 用 所 学 模型 来 预测 或 


























决策 的 置信 和 度 同 样 重要 时 会 很 有 用 ， 比 如 在 机 器 人 操作 或 车 辆 轰 驶 的 情形 中 为 了 保 
令 的 可 行 性 和 风险 都 需要 以 概率 模型 的 方式 来 分 析 。 除 此 之 外 ， 概 率 性 方法 根据 
深度 神经 网 络 的 “ 黑 盒 ”优化 过 程 不 同 。 而 这 也 使 得 概率 
此 外 ， 像 基于 GMR 的 高 斯 过 程 类 的 概率 性 方法 对 
的 输入 数据 点 有 快速 的 适应 能 力 ， 这 在 下 面 小 节 



































将 会 讨论 。 对 于 模仿 学 习 中 的 概率 性 方 














法 ， 数 据 集 被 默认 为 是 以 有 标签 数据 类 型 来 提供 的 ， 即 输入 和 输出 的 配对 ， 对 于 一 般 强化 学 习 ， 


它 通 常 是 状态 -动作 对 { (si, ai)l = 0,--- 
对 {(t, Selt =0,--- , 
































的 线性 


(Deterministic) 输入 - 输 昌 





的 均值 




















计 的 多 样 化 信息 被 封装 到 GP 的 不 确 
数据 点 时 ， 基 于 GMR 的 GP 能 够 快速 适应 它们 并 给 出 
10 
$ o0 
-10 
yi 
图 8.10 ”模仿 学 习 中 基于 


归 的 方法 。 
输出 分 布 。 
Maximization, EM) 来 拟 合 输 
FER (Conditional) 均值 
组 合 来 4 


"Jj 


, 


基于 高 斯 混合 
GMR 利 


H 
in 
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导 到 ， 使 用 测试 数据 点 





































































































作为 输入 。GP 如 同 深度 
上 关系 问题 的 方法 ， 它 基于 可 能 的 目标 函数 的 高 斯 先 验 (Prior) 来 计算 。 
基于 GMR [J GP (GMR-Based GP) 是 种 结合 的 方法 ， 
0 GP 的 核 (Kernel) 是 相应 GMM 各 个 如 
的 GP 方法 有 GP 通过 均值 和 核 来 编码 多 种 先 验 置信 (Prior Beli 
定性 (Uncertainty) 估计 : 





=H 


E (Gaussian Conditioning Theorem) 来 估计 给 定 输入 数据 的 
通过 期 望 最 大 化 算法 (Expectation 
Ata (Joint Distribution ) 。 给 定 观 察 输入 ， 基 
其 输出 结果 因而 可 以 通过 基于 条 件 的 期 望 























种 结合 了 高 斯 混合 区 


, 入}， 而 对 按时 间 排 列 的 示范 数据 ， 它 可 以 是 时 间 - 状 态 
N} (Jaquier et al., 2019). 
3 (GMR) 的 高 斯 回归 (GPR) 是 一 
了 高 斯 条 件 定 开 
高 斯 混合 模型 (Gaussian Mixture Model, GMM) 
Ti 入 输出 数据 点 的 联合 
和 方差 可 以 有 封闭 解 ， 
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CHI GP 先 
H^) PASHAN. PES EEF GMR 


经 网 络 一 样 ， 是 针对 学 习 确 定性 





验 均值 等 于 GMR 模型 基于 条 件 

















efs) 的 能 力 ， 并 且 人 允许 GMR fii 
。 当 给 出 新 的 未 见 过 的 输入 观察 























合理 预测 输出 ， 如 图 8.10 所 示 。 对 于 一 个 
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-101 。 
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yı 

















相同 ) 为 








蓝 色 ， 采 样 轨 迹 为 粉色 ， 预 测 轨 迹 为 红色 ， 有 三 个 黑 


色 的 点 为 新 观察 量 。 图 片 来 自 文 献 Jaquier et al, 2019) ( 见 














GMR 的 GP 2n 左边 图 中 ， 先 验 均 值 为 蓝 色 ， 采 样 轨迹 为 紫色 。 右 边 
图 中 ， 先 验 均值 ( SAR 

















见 彩 插 ) 


8.6 ”模仿 学 习作 为 强化 学 习 的 初始 化 


























二 维 轨迹 的 估计 过 程 ， 图 8.10 中 的 左边 用 紫色 线 展示 了 所 给 的 样本 ， 而 蓝 色 线 展示 了 先 验 均值 。 
右边 的 图 是 基于 GMR 的 GP 方法 ， 其 中 有 3 个 新 的 观察 数据 点 被 标 为 黑色 ， 粉 色 线 展示 了 采样 
轨迹 ， 而 红色 线 是 预测 轨迹 。 这 个 方法 经 证 实 对 使 用 示范 数据 进行 学 习 并 快速 适应 到 新 的 数据 点 
的 情况 有 很 好 的 表现 ， 而 这 可 以 用 于 操作 机 器 人 基于 示范 规避 障碍 物 。 

















































































































8.6 ”模仿 学 习作 为 强化 学 习 的 初始 化 


使 用 模仿 学 习 的 基本 设 定 是 在 不 使 用 任何 强化 信号 而 只 有 示范 数据 的 情况 下 学 习 一 个 策略 ， 
这 意味 着 通过 模仿 学 习 所 学 策略 是 来 自 示范 数据 的 最 终 策 略 。 然 而 ， 在 实际 中 ， 来 自 模仿 学 习 的 
策略 通常 没有 足够 的 泛 化 能 力 ， 尤 其 是 对 于 未 见 过 的 情况 。 因 此 ， 我 们 可 以 在 强化 学 习 的 过 程 
使 用 模仿 学 习 ， 以 此 来 提高 强化 学 习 的 效率 。 举 例 来 说 ， 使 用 示范 数据 的 预 训练 策略 可 以 用 来 初 
始 化 强化 学 习 的 策略 。 关 于 这 些 方法 的 细节 将 在 随后 讨论 。 因 此 ， 我 们 并 不 需要 模仿 学 习 给 出 的 
策略 是 最 优 的 ， 而 是 通过 一 个 相对 简单 的 学 习 过 程 得 到 一 个 足够 好 的 策略 ， 比 如 使 用 监督 学 习 的 
模仿 学 习 方 法 。 所 以 , 我 们 在 下 面 只 选择 一 些 简单 直接 的 方法 来 作为 后 续 强 化 学 习 过 程 的 初始 化 
方法 。 模 仿 学 习 中 更 精致 的 方法 毫 无 疑问 会 成 为 更 好 的 初始 化 策略 ， 但 是 也 会 相应 带 来 如 较 长 的 
预 训练 时 间 等 缺点 。 

总 体 来 说 , 通过 监督 学 习 方式 模仿 示范 数据 而 学 到 的 策略 ,可 以 使 用 包括 BC、DAgger、Vari- 
ational Dropout 等 方法 ， 它 们 被 看 作 是 对 强化 学 习 策略 较 好 的 初始 化 ， 有 具体 地 ， 通 过 下 面 小 节 ! 
描述 的 策略 替换 (Policy Replacement) 或 者 残 差 策略 学 习 (Residual Policy Learning) 方法 。 

除了 用 策略 蔡 换 来 初始 化 强化 学 习 《〈 模 拟 学 习 策 略 在 强化 学 习 初 始 时 人 蔡 换 其 策略 )， 残 差 策 
略 学 习 (Johannink et al., 2019; Silver et al., 2018) 是 另 一 种 实现 初始 化 的 方法 。 比 如 对 于 机 器 人 控 
制 任务 ， 它 通常 基于 一 个 较 好 但 是 不 完美 的 控制 器 ， 并 以 这 个 初始 控制 器 为 基础 学 习 一 个 残 差 策 
略 。 对 于 现实 世界 的 机 器 人 控制 ， 初 始 控制 器 可 以 是 一 个 模拟 器 中 预 训练 的 策略 ;对 于 模拟 的 机 
器 人 控制 ， 初 始 控制 器 可 以 用 监督 学 习 的 方式 基于 专家 轨迹 预 训练 得 到 ， 如 8.2 节 中 的 方法 。 

残 差 策略 学 习 中 的 动作 遵循 结合 式 策略 ， 即 由 初始 策略 CInitial Policy) rini 和 残 差 策略 Tes 
求 和 得 到 : 
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a= Tini(S) + Tres (8). (8.34) 











通过 这 种 方式 ， 残 差 策略 学 习 能 够 尽 可 能 地 保持 初始 策略 的 表现 。 

















例子 : 使 用 DDPG 的 残 差 策略 学 习 

这 里 我 们 使 用 深度 确定 性 策略 梯度 (DDPG) 算法 来 实现 基于 示范 的 残 差 策略 学 习 。 根 据 残 
差 策略 学 习 方 法 ,DDPG 中 的 行动 者 (Actor) 策略 将 包含 两 部 分 : 一 个 是 预 训练 得 到 的 初始 策略 ， 
在 初始 化 后 将 被 固定 ， 另 一 个 是 后 面 学 习 过 程 中 将 训练 的 残 差 策 略 。 初 始 策略 通过 模仿 学 习 根据 
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4H 
本 


示范 数据 训练 





(Target Critic) 














各 和 





ly I 
HA. 








略 ， 开 始 训练 过 程 。 
体 与 环境 交互 ， 动 作 值 是 初始 化 策略 和 残 差 策略 的 和 值 : = aii 十 Gress PER 


智能 


(2) XE 





到 。 这 个 预 训练 的 初始 策略 只 ) 
残 差 策略 学 习 的 过 程 如 下 : 
C1) 以 残 差 学习 的 方式 初始 化 DDPG 中 的 


目标 初始 策略 (Target Initial Policy), 


H 


























仿 学 习 





所 有 网 络 ， 包 括 对 批判 者 〈Critic) 、 
的 一 般 初 始 化 ,以 及 对 残 差 策略 (Residual Policy) 和 目标 残 差 策略 (Target Residual 
Policy) 的 最 后 网 络 层 (Final Layers) 进行 零 值 初始 化 ， 还 有 将 通过 模 


4H 
本 





JF DDPG 的 行动 者 部 分 。 基 于 DDPG HiFi 


rt 
Um 
a 

















目标 批判 














到 的 策略 作为 初 








一 共 是 六 个 


网 络 。 这 时 





以 (5, ares, 8’, r, done) 的 形式 存储 。 


(3) 从 经 验 








口 




















UE 中 采样 (s, Ares, s', T, done) 2. 有 

















Qtarget (5, ares) =r+ *Q' (s, Tes(8)) 


行动 者 的 目标 是 最 大 化 状态 s 和 动作 ares 的 动作 价值 函数 ， 如 下 : 


e 


AE 














这 可 以 通过 确 
(4) 

















对 比 一 般 的 DDPG 算法 ， 使 上 
的 整个 动作 a 来 学 习 动 作价 值 函数 和 策 


8.7 


H 
重复 上 面 的 第 (2) (3) 步 ， 直 到 策略 收敛 到 接近 最 优 。 
残 差 策略 学 习 的 不 同 只 是 对 残 差 策略 的 动作 aes， 而 非 智 能 体 





M Q(s, ares) = max Q(s, Tres (5|0)) 


策略 梯度 (Deterministic Policy Gradient) 来 优化 。 















































各 。 





强化 学 习 中 利用 示范 数据 的 其 他 方法 


回 定 住 初始 策略 和 目标 策 


Ek 





(8.35) 


RE QT, mL. 分 别 表 示 目 标 批判 者 和 目标 残 差 策略 。 批 判 损失 函数 是 MSE(Quareet(s, ares), Q5, ares))。 


(8.30) 




















8.7.1 将 示范 数据 导入 经 验 回放 缓存 





通过 直接 将 专家 轨迹 
数据 ， 而 非 预 训练 一 个 策 
用 。DQfD 使 用 一 个 
向 其 添加 采集 到 的 新 样本 。DQID 使 ) 
回放 缓存 中 采样 训练 批 ， 
数据 和 一 个 一 般 的 TD 损失 函数 的 











2015) 来 从 





已 
Tt 


























咯 来 初始 化 强化 学 习 策略 。 它 使 
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专家 示范 初始 化 
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基于 示范 的 深度 确 
DDPGfD ) (Veéerik et al., 2017) 是 一 种 与 上 














优先 经 验 回 


一 个 监督 














且 它 使 用 
结合 来 训练 策略 。 




















定性 









































fl DOfD 类 似 的 方法 , 但 是 使 














基于 示范 的 深度 Q-Learning (Deep Q-Learning from Demonstrations, DQfD ) (Hester et al., 2018) 
入 离线 COff-Policy) 强化 学 习 的 记忆 缓存 (Memory Buffer) ! 














来 利用 示范 











] DQN 来 解决 只 有 离散 动作 空间 的 应 
的 经 验 回放 缓存 (Experience Replay Buffer)， 并 不 断 
放 〈Prioritized Experience Replay) (Schaul et al., 
式 折 页 损失 函数 (Hinge Loss) 来 模仿 示范 


策略 梯度 (Deep Deterministic Policy Gradient from Demonstrations， 
] DDPG 来 处 理 连 续 动 作 


8.7. ”强化 学 习 中 利用 数据 的 其 他 方法 





空间 的 应 用 。DDPGfD 通过 直接 将 专家 策略 输入 离线 强化 学 习 〈 即 DDPG) 的 缓存 来 利用 示范 数 
据 ， 从 而 通过 示范 和 探索 数据 一 同 训练 策略 。 优 先 经 验 回放 被 用 来 平衡 两 种 训练 数据 。DDPGfD 



































可 以 用 于 强化 学 习 中 的 简单 、 
更 积极 的 探索 。 
文献 (Nair et al., 2018) 提出 

































































易 解 决 的 任务 ， 而 对 从 稀 玻 奖励 学 习 等 较 难 任务 需要 在 训练 中 进行 








个 基于 DQfD 和 DDPGfD 的 方法 ， 对 较 难 的 任务 有 更 好 的 学 习 





效率 , 这 些 任 务 需 要 基于 示范 数据 进一步 探索 去 解决 。 它 的 策略 损失 函数 是 策略 梯度 损失 (Policy 
Gradient Loss) 和 行为 克隆 损失 (Behavioral Cloning Loss) 的 结合 ， 其 梯度 如 下 : 






































损失 。 
此 外 ， 


状态 下 所 学 的 批判 者 Qs, 














能 够 探索 至 











A1VoJ — A2VoLBac (8.37) 


了 是 一 般 的 强化 学 习 目 标 《〈 最 大 化 的 )， 而 Lsc 最 小 化 的 ) 是 本 章 开始 时 定义 的 行为 克隆 



























































这 个 方法 也 使 用 了 Q-Filter 技术 ， 它 要 求 行为 克隆 损失 函数 只 用 于 部 分 状态 ， 在 这 些 
a) 判定 示范 者 动作 比 行动 者 动作 更 好 : 
Np 
Lgc = 5 |7(s;|Ox) 一 ail LQ(lsi,a:)>Q(lsi,n(s:)) (8.38) 
jei 











以 同样 








其 中 Np 是 示范 数据 集中 样本 的 数量 ， 而 
更 好 的 动作 ， 而 不 是 被 示范 数 扩 
的 方式 ，QT-Opt (Kalashnikov et al., 2018) 和 分 位 数 QT-Opt (Quantile QT-Opt) (Bodnar 














采样 得 到 的 。 这 保证 了 策略 





(si, Qi) 是 从 示范 数据 集 
居所 限制 |。 























et al., 2019) 算法 也 使 用 在 线 缓存 和 离线 示范 
CActor-Free) 的 交叉 焕 方 法 和 DQN, 可 以 在 现实 世界 中 基于 图 像 的 机 器 人 学 习 任 务 上 达到 当时 最 




















缓存 混合 的 方式 来 实现 离线 学 习 ， 通 过 一 种 无 行动 者 











FHK (State-of-the-Art) 表现 。 


8.7.2 ”标准 化 Actor-Critic 



































标准 化 Actor-Critic (Normalized Actor-Critic, NAC) (Gao et al., 2018) 是 另 一 个 利用 示范 数据 


来 进行 高 效 强 





EE 化 学 习 的 方法 ， 它 先 预 训练 一 个 策略 作为 改进 强化 学 习 过 程 的 初始 化 。NAC 与 其 











目标 函数 ， 

















进行 训练 ， 











也 方法 的 差异 是 它 在 使 用 万 











这 使 得 NAC 对 















































< 范 数 据 预 训练 初始 化 策略 和 改进 强化 学 习 的 过 程 中 使 用 完全 相同 的 
包含 次 优 样本 的 示范 数据 也 表现 得 很 鲁 棒 。 
另 一 方面 ，NAC 方法 类 似 于 DDPGfD 和 DQ 方法 ， 但 是 它 依次 使 用 示范 数据 和 交互 样本 



































Ei 











而 不 是 同时 使 








j 这 两 类 样本 数 和 


Po 
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8.7.3 用 示范 数据 进行 奖励 塑 形 


用 示范 数据 进行 奖励 塑 形 (Reward Shaping with Demonstrations) (Brys et al., 2015) 是 一 个 专 










































































注 于 初始 化 强化 学 习 中 价值 函数 而 非 动作 策略 的 方法 。 它 给 智能 体 提供 了 一 个 中 间 的 奖励 来 丰富 
稀 疏 奖励 信号 : 

Rr(s,a,s’) = R(s,a,s') + FP(s,a,s') (8.39) 
其 中 基于 示范 数据 D 的 塑 形 奖励 F? 通过 势 函数 o 来 定义 并 保证 其 收敛 性 ， 其 形式 如 下 : 

F?(s,a,s',a’) = y?” (s', a^) — ¢?(s, a) (8.40) 
而 6? 定义 为 

$P (s,a) = max e- 36-50 E (ss?) (8.41) 


(sd,a) 

















它 被 用 来 最 大 化 最 接近 示范 状态 s. 的 状态 s 的 势 值 。 优 化 后 的 势 函数 被 用 来 初始 化 强化 学 习 中 
的 动作 价值 函数 Q: 









































Qo(s,a) = óP (s, a) (8.42) 




















奖励 塑 形 的 直观 理解 是 使 探索 到 的 样本 倾向 于 那些 等 于 或 接近 示范 数据 的 状态 -动作 对 ,从 而 加 速 
强化 学 习 的 训练 过 程 。 奖 励 塑 形 提供 了 一 种 在 强化 学 习 过 程 中 初始 化 价值 估计 函数 的 较 好 方式 。 

其 他 方法 像 无 监督 感知 奖励 (Unsupervised Perceptual Rewards) (Sermanet et al., 2016) 也 用 
于 通过 示范 数据 学 习 一 个 密集 且 平 滑 的 奖励 函数 ， 使 用 的 是 一 个 预 训 练 的 深度 学 习 模型 得 出 的 
特征 。 

















































































































8 .8 总 结 


由 于 第 7 章 中 提 到 的 强化 学 习 低 学 习 效 率 的 挑战 ， 我 们 介绍 模仿 学 习 来 作为 一 种 可 能 的 解决 
方案 ， 它 需要 使 用 专家 示范 。 本 章 整体 可 以 总 结 为 几 个 主要 类 别 。8.2 节 中 介绍 的 行为 克隆 方法 
是 以 监督 学 习 方 式 进行 模仿 学 习 的 最 直接 方法 ， 它 可 以 进一步 与 强化 学 习 结合 ， 比 如 8.6 节 中 介 
绍 的 将 其 作为 强化 学 习 的 初始 化 。 一 个 更 先进 的 结合 模仿 学 习 和 强化 学 习 的 方式 是 通过 IRL 来 
显 式 或 隐 式 地 从 示范 中 恢复 奖励 函数 ， 如 8.3 节 所 介绍 的 。 像 MaxEnt IRL 方法 可 以 显 式 地 学 习 
奖励 函数 ， 但 是 可 能 有 较 大 计算 消耗 。 其 他 的 生成 对 抗 式 方法 ， 如 GAIL、GAN-GCL、AIRL W 
能 更 高 效 地 学 习 奖 励 函 数 和 策略 。 另 一 个 问题 是 如 果 示 范 数据 集中 的 动作 是 缺失 的 ， 比 如 只 从 视 
频 中 学 习 ， 那 么 怎样 合理 地 进行 模仿 学 习 ? 这 实际 是 Ito 的 研究 范畴 ， 如 8.4 节 所 介绍 。 由 于 HO 
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问题 是 从 另 一 个 角度 来 看 模仿 学 习 的 ， 之 前 介绍 的 方法 像 BC、IRL 同样 可 以 经 过 适当 修改 用 于 
IfO. IfO 中 的 方法 基本 可 以 总 结 为 基于 模型 和 无 模型 两 类 。 基 于 模型 的 方法 从 样本 中 学 习 动 态 模 
型 ， 而 且 它 可 以 通过 模型 中 状态 -动作 关系 从 只 有 观察 量 的 示范 数据 中 恢复 动作 ， 以 显 式 或 者 隐 
式 的 方法 。 随 后 ， 如 果 动 作 被 显 式 地 恢复 了 ， 就 可 以 使 用 常规 的 模仿 学 习 方 法 。 像 RIDM、BCO、 
ILPO 等 方法 属于 这 个 基于 模型 的 IO 范畴 。 对 于 IfO 中 的 无 模型 方法 ， 奖 励 函 数 工 程 或 者 生成 对 
抗 式 方法 可 以 用 来 提供 奖励 函数 从 而 进行 强化 学 习 。 像 OptionGAN. FAIL. AGAIL 等 方法 属于 
生成 对 抗 式 HO， 而 TCN 和 一 些 其 他 方法 属于 IfO 的 奖励 函数 工程 一 类 。 这 里 对 IfO 的 两 个 类 别 
实际 对 一 般 的 模仿 学 习 也 适用 ， 比 如 GAIL 是 一 种 生成 对 抗 式 方法 ， 而 最 近 提 出 的 对 比 正 向 动态 
(Contrastive Forward Dynamics, CFD) (Jeong et al., 2019) 是 模仿 学 习 的 一 种 从 观察 量 和 动作 示范 
中 学 习 的 奖励 函数 工程 方法 。 概 率 性 方法 包括 GMR、GPR 和 基于 GMR 的 GP 方法 作为 一 般 的 模 
仿 学 习 方 法 而 在 本 章 中 有 所 介绍 ， 它 们 对 于 相对 低 维 的 情况 有 较 高 的 学 习 效 率 ， 如 8.5 节 所 讨论 
的 。 最 终 ， 一 些 其 他 方法 像 DDPGfD 和 DQfD 将 示范 数据 直接 导入 离线 强化 学 习 的 回放 缓存 中 ， 
等 等 ， 都 在 8.7 节 中 介绍 。 模 仿 学 习作 为 一 种 解决 学 习 问 题 的 高 效 方式 ， 可 以 与 强化 学 习 有 机 结 
合 ， 相 关 研 究 领域 依然 十 分 活跃 ， 
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在 本 章 中 ， 我 们 将 从 学 习 和 规划 的 角度 进一步 分 析 强 化 学 习 。 我 们 首先 将 介绍 基于 模型 和 无 
模型 强化 学 习 的 概念 ， 并 着 重 介绍 模型 规划 的 优势 。 为 了 在 强化 学 习 中 充分 利用 基于 模型 和 无 模 
型 方法 ， 我 们 将 介绍 集成 学 习 和 规划 的 架构 ， 并 详细 阐述 应 用 其 架构 的 Dyna-Q 算法 。 最 终 ， 将 
进一步 详细 分 析 集 成 学 习 和 规划 的 基于 模拟 的 搜索 应 用 。 
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9.1 简介 



































在 强化 学 习 中 ， 智 能 体 可 以 和 环境 进行 交互 。 智 能 体 在 每 一 轮 交 互 中 收集 到 的 信息 可 以 称 为 
智能 体 的 经 验 ， 这 能 帮助 智能 体 提 升 自身 的 决策 策略 。 一 般 来 说 ， 学 习 指 代 智 能 体 决 策 策 略 基 于 
实际 和 环境 的 交互 逐渐 提升 的 过 程 。 直 接 策略 学 习 是 最 为 基本 的 学 习 方式 ， 如 图 9.1 所 示 ， 其 中 ， 
智能 体 首 先 根据 当前 的 决策 策略 在 环境 中 制定 动作 , 环境 会 基于 智能 体 当 前 的 状态 和 动作 反馈 给 





















































































































































策略 学 习 
决策 行为 








图 9.1 直接 策略 学 习 














POF 集成 学 习 与 规划 





智能 体 所 得 到 的 收益 ， 使 其 能 够 评估 当前 策略 的 表现 并 帮助 智能 体 探 索 如 何 进一步 提升 策略 。 然 
而 ， 直 接 策 略 学 习 是 基于 智能 体 在 环境 中 每 一 个 单 步 动 作 所 产生 的 经 验 ， 由 于 环境 的 随机 性 和 不 
确定 性 ， 基 于 单 步 动 作 的 经 验 会 使 学 习 结果 存在 很 大 方差 ， 大 大 影响 了 学 习 的 速度 和 质量 。 

为 了 提高 学 习 效率 ,在 策略 学 习 的 每 一 个 学 习 周 期 中 ， 积 累 多 轮 和 环境 的 交互 作为 智能 体 的 
经 验 是 很 有 帮助 的 。 通 过 在 环境 中 进行 演算 (Roll-out) 收集 多 轮 交 互信 息 ， 即 在 环境 中 根据 当前 
的 状态 和 决策 策略 形成 一 条 具体 的 包含 一 系列 状态 、 动 作 和 奖励 信息 的 探索 轨迹 。 在 一 般 的 无 模 
型 学 习 中 ， 智 能 体 将 在 真实 的 环境 中 在 线 演 算 ， 并 将 获得 的 多 轮 交 互信 息 用 于 策略 学 习 。 

然而 ， 在 环境 中 通过 在 线 演算 产生 经 验 的 成 本 很 高 。 例 如 ， 在 工业 界 的 应 用 中 ， 一 些 状 态 可 
以 指 代 系 统 朋 溃 或 者 设备 爆炸 ， 这 些 状 态 在 策略 学 习 的 探索 过 程 中 是 十 分 危险 的 。 另 外 ， 在 实际 
环境 中 只 能 顺序 演算 ， 不 能 并 行 计算 ， 这 导致 其 采样 效率 和 学 习 速 度 都 很 低 。 因 而 ， 在 一 些 场景 
下 ， 我 们 和 希望 能 够 使 用 模拟 环境 来 取代 实际 环境 进行 探索 和 经 验 积累 。 在 模拟 环境 中 的 演算 被 称 
为 规划 (Planning)， 可 通过 并 行 计算 高 效 地 为 策略 学 习 产生 大 量 模拟 经 验 。 为 了 在 规划 中 使 用 有 
效 的 模拟 环境 ， 基 于 模型 的 方法 得 以 提出 。 


92 ”基于 模型 的 方法 


为 了 能 够 实行 规划 ， 模 型 的 概念 将 在 智能 体 和 环境 之 间 产 生 (Kaiser et al., 2019)， 如 图 9.2 所 
示 ， 当 智能 体 在 状态 S, 采取 决策 动作 A 时 ， 环 境 会 为 模型 给 予 反馈 奖励 Rez 并 使 智能 体 进入 
下 一 状态 S+1。 根 据 智能 体 和 环境 之 间 收 集 到 的 经 验 信息 ， 我 们 将 Sty 和 (S, AL) 之 间 的 映射 
关系 称 为 转移 模型 ， 并 将 Rei M (Se, AL) 之 间 的 映射 关系 称 为 奖励 模型 。 当 状态 不 能 完全 被 观察 
信息 表示 时 ， 还 将 设 定 观察 模型 M (O;|S;) 和 表示 模型 M(Si41|Si, At, O141) (Hafner et al., 2019), 
其 中 Oi 表示 在 状态 S, 下 第 t 步 所 对 应 的 观察 信息 。 例 如 ， 捕 捉 到 的 关乎 物体 运动 的 图 片 属于 观 
察 信 息 ， 可 以 体现 该 物体 蕴含 的 所 处 状态 信息 。 后面 ,为 了 集中 分 析 其 中 的 转移 模型 和 奖励 模型 ， 
我 们 假设 状态 是 完全 可 观测 的 。 我 们 将 转移 模型 和 奖励 模型 分 别 由 方程 上 和 万 表示 : 


通过 模型 规划 模型 
进行 策略 学 习 学 习 


图 92 基于 模型 的 强化 学 习 方 法 
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S, Id Fa (Si, A) , (9.1) 
Riya = FLA). (9.2) 

















模型 学 习 是 一 个 监督 式 的 拟 合 学 习 过 程 ， 目 标 是 建立 一 个 虚拟 的 环境 ， 其 中 的 转移 关系 和 奖 
励 关系 和 真实 环境 保持 一 致 。 因 而 ， 基 于 对 真实 环境 的 了 解 ， 我 们 可 以 使 用 一 个 环境 模型 使 智能 
体 在 其 中 进行 规划 ， 然 后 将 收集 到 的 经 验 信息 用 于 帮助 其 策略 学 习 。 

在 不 同 的 应 用 场景 中 ， 模 型 学 习 和 策略 学 习 的 关系 是 多 样 的 ， 有 具体 如 下 所 述 。 

。 直 接 学 习 : 如 果 智 能 体 已 经 基于 规则 或 专家 信息 和 环境 交互 过 多 次 ， 那 么 之 前 收集 到 的 经 
验 信息 可 以 直接 用 来 进行 模型 学 习 。 当 模型 学 习 完 成 时 ， 智 能 体 可 以 将 训练 后 的 模型 当 作 
模拟 的 环境 ， 并 与 其 交互 帮助 其 进行 策略 学 习 。 
迭代 学 习 : 如 果 模 型 在 初始 时 并 没有 足够 的 数据 进行 学 习 ， 那 么 模型 学 习 和 策略 学 习 可 以 
迭代 交替 进行 。 基 于 当前 智能 体 和 环境 交互 产生 的 有 限 信息 ， 模 型 可 以 学 习 真 实 环境 中 部 
分 且 有 限 的 信息 。 智 能 体 在 基于 有 限 学 习 产生 的 模拟 环境 进行 规划 并 以 此 训练 参数 ， 且 其 
策略 表现 得 到 了 少许 提升 后 ， 将 用 更 新 的 策略 在 真实 环境 中 交互 ， 并 将 收集 到 的 经 验 信息 
进一步 用 于 对 模型 的 学 习 。 随 着 迭代 次 数 的 增加 ， 模 型 学 习 和 策略 学 习 将 逐步 收敛 到 最 优 
结果 。 因 此 ， 模 型 学 习 和 策略 学 习 可 以 相互 辅助 而 进行 有 效 的 学 习 。 

忆 此 ， 基 于 模型 的 强化 学 习 将 通过 对 真实 环境 的 学 习 建立 一 个 模拟 环境 的 模型 ， 并 在 其 中 进 
行规 划 ， 使 智能 体 更 好 地 进行 策略 学 习 。 模 型 学 习 的 优势 可 列举 如 下 ; 

。 由 于 规划 可 以 在 智能 体 和 模型 之 间 完 成 ， 智 能 体 不 需要 在 真实 环境 中 采取 大 量 的 决策 动作 

进行 探索 和 策略 学 习 。 因 而 ， 和 成 本 高 并 且 需 要 在 线 采 取 动 作 的 真实 环境 相 比 ， 基 于 模型 

的 方法 能 够 有 效 地 降低 训练 时 间 并 且 保 障 在 策略 学 习 过 程 中 的 安全 性 。 例 如 ， 在 真实 环境 
中 ， 机 器 人 完成 任务 需要 实际 操作 ， 在 QT-Opt (Kalashnikov et al., 2018) 方法 中 ， 为 了 完成 
抓 取 的 任务 ，7 个 机 器 人 需要 昼夜 不 停 地 在 实际 环境 中 收集 采样 数据 。 然 而 一 个 模拟 的 环 

境 (通过 学 习 或 人 工 建立 ) 可 以 用 来 节约 大 量 的 时 间 并 且 降 低 机 器 人 的 磨损 。 

。 当 策略 学 习 在 智能 体 和 模拟 模型 之 间 进 行 时 ， 学 习 过 程 可 以 采用 并 行 计 算 。 在 分 布 式 系统 
中 可 以 存在 多 个 学 习 者 合作 同时 进行 策略 学 习 ， 其 中 每 个 学 习 者 可 以 和 一 个 根据 真实 环境 
模拟 的 模型 进行 交互 ， 从 而 所 有 学 习 者 都 可 以 在 其 对 应 的 模型 进行 规划 。 模 型 之 间 是 相互 
独立 的 ， 并 且 不 会 影响 到 真实 环境 中 所 处 的 状态 信息 。 因 此 ， 具 有 并 行 性 的 策略 学 习 大 大 
提高 了 学 习 效率 ， 且 增 大 了 可 学 习 问 题 的 规模 。 

然而 ， 基 于 模型 的 强化 学 习 的 结构 同样 也 存在 缺点 和 不 足 : 

。 在 基于 模型 的 强化 学 习 中 ， 模 型 学 习 的 表现 将 会 影响 策略 学 习 的 结果 。 对 于 复杂 且 动态 的 
环境 场景 ， 如 果 学 习 到 的 模型 不 能 很 好 地 模拟 出 真实 环境 ， 智 能 体 在 规划 中 会 和 一 个 错误 
且 不 准确 的 模型 进行 交互 ， 从 而 将 增 大 策略 学 习 的 误差 。 

。 如 果真 实 环境 有 更 新 或 者 调整 , 模型 需要 通过 多 次 迭代 之 后 才 会 学 到 环境 的 变化 , 然后 还 需 
要 耗费 大 量 训 练 时 间 使 智能 体 学 习 并 调整 其 策略 。 因 此 ， 对 于 在 线 学 习 中 真实 环境 的 变化 ， 
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智能 体 对 其 策略 的 相应 调整 有 着 很 高 的 延 运 ， 这 并 不 适用 于 那些 对 实时 性 有 要 求 的 应 用 。 




















9.3 ”集成 模式 架构 


综合 无 模型 和 基于 模型 的 强化 学 习 方 法 的 优 劣 ,集成 学 习 和 规划 的 过 程 可 以 很 好 地 将 无 模型 
和 基于 模型 的 方法 结合 在 一 起 。 对 于 不 同 的 应 用 场景 ， 集 成 学 习 和 规划 的 方法 和 架构 是 不 同 的 。 
一 般 来 说 ， 在 无 模型 的 方法 中 ， 智 能 体 仅 在 与 真实 环境 的 交互 中 得 到 真实 的 经 验 ， 没 有 采用 
规划 辅助 其 策略 的 学 习 和 提升 。 在 基本 的 基于 模型 的 方法 中 ， 首 先 将 通过 智能 体 和 真实 环境 的 交 
互 进行 模型 学 习 ， 然 后 基于 学 到 的 模型 ， 智 能 体 将 迁 代 式 采 取 规划 并 用 收集 到 的 经 验 进行 策略 
学 习 。 
由 于 模型 处 于 智能 体 和 环境 之 间 ， 在 智能 体 策略 学 习 中 ， 经 验 来 源 可 以 分 为 如 下 两 类 : 
真实 经 验 ， 真 实 经 验 是 从 智能 体 和 真实 环境 中 直接 采样 获得 的 。 一 般 来 说 ， 真 实 经 验 体现 
了 环境 正确 的 特征 和 属性 ， 但 获得 成 本 较 高 ， 并 且 在 真实 环境 中 的 探索 不 可 逆 且 难以 人 工 
干预 。 
.模拟 经 验 ， 模 拟 经 验 是 从 模型 规划 过 程 中 获得 的 ， 可 能 不 能 准确 地 表现 真实 环境 的 真实 特 
征 ， 但 模型 很 容易 人 工 操纵 ， 并 且 可 以 通过 模型 学 习 减 小 模型 和 真实 环境 的 误差 。 
对 于 策略 学 习 ， 如 果 我 们 能 够 同时 考虑 真实 经 验 和 模拟 经 验 ， 那 么 就 能 结合 无 模型 和 基于 模 
型 的 方法 的 优势 ， 提 高 学 习 的 效率 和 准确 性 。Dyna 架构 在 (Sutton, 1991) 中 提出 。 如 图 9.3 所 示 ， 
根据 基础 的 基于 模型 的 方法 ， 在 策略 学 习 中 ， 智 能 体 不 仅 从 已 经 学 到 的 模型 所 提供 的 模拟 经 验 中 
更 新 策略 ， 并 且 考虑 了 与 真实 环境 交互 所 收集 到 的 真实 经 验 。 因 此 ， 在 策略 学 习 中 ， 模 拟 经 验 能 
够 保证 学 习 过 程 中 有 足够 多 的 训练 数据 来 降低 学 习 方 差 ， 另 外 ， 真 实 经 验 能 够 更 准确 地 体现 环境 
的 动态 变化 和 正确 特征 ， 从 而 降低 由 于 环境 而 产生 的 学 习 偏差 。 













































































































































































































































































































































































































































































































































































直接 策略 学 习 


通过 模型 规划 进 模型 
行 策略 学 习 学 习 


SS 


图 9.3 Dyna 架构 




















基于 此 架构 ，Dyna-Q 算法 得 以 进一步 提出 ， 如 算法 9.30 所 述 。Dyna-Q 算法 将 建立 并 维护 
个 Q 表 格 ， 据 此 指导 智能 体 做 出 动作 决策 。 在 每 个 学 习 周期 中 ，Q 表格 通过 智能 体 和 真实 环境 的 
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交互 中 学 习 更 新 ， 模 拟 的 模型 同时 也 会 从 真实 经 验 中 学 习 ， 并 且 通 过 规划 获得 ”组 模拟 经 验 用 于 
进一步 的 Q 表格 学 习 。 因 此 ， 随 着 学 习 周 期 的 增加 ，Q 表格 能 够 学 习 并 收敛 到 最 佳 的 结 



























































算法 9.30 Dyna-Q 
初始 化 Q(s,a) fl Model(s,a), KP seS, acA 


while(true): 
(a) s — 当前 《〈 非 终止 ) 状态 
(b) a + e-greedy(s, Q) 
(c) 执行 决策 动作 a; 观测 奖励 7, 获得 下 一 个 状态 s/ 
(d) Q(s,a) + Q(s,a) +a [r + y max, Q(s', a") — Q(s,a)] 
(e) Model(s, a) — r, s' 
(f) HE n 1X: 
s «— 随机 历史 观测 状态 
a «— 在 状态 s 下 历史 随机 决策 动作 
r,s’ + Model(s, a) 
Q(s,a) — Q(s,a) +a [r + y max, Q(s', a") — Q(s,a)] 























9.4 ”基于 模拟 的 搜索 


在 本 节 中 ， 我 们 侧重 于 规划 部 分 ， 并 介绍 一 些 基于 模拟 的 搜索 算法 ， 使 其 在 当前 的 状态 通过 
演算 形成 探索 轨迹 。 因 此 ， 基 于 模拟 的 搜索 算法 一 役 是 使 用 基于 样本 规划 的 前 向 搜索 范式 。 前 向 
搜索 和 采样 具体 的 阐述 如 下 。 
前 向 搜索 ， 在 规划 过 程 中 ， 智 能 体 当前 所 处 马尔 可 夫 过 程 中 的 状态 比 其 他 的 状态 更 值得 关 
注 。 因 而 从 另 一 角度 ， 我 们 将 具有 有 限 选择 的 MDP 看 作 一 个 树 形 的 结构 ， 其 中 树 的 根部 代 
表 当 前 状态 ， 如 图 9.4 所 示 ， 前 向 搜索 算法 从 当前 的 状态 选择 最 佳 的 决策 动作 ， 并 且 通 过 树 
形 结构 的 枝 干 来 考虑 未 来 的 选择 。 
采样 : 当 基于 MDP 采用 规划 过 程 时 ， 从 当前 的 状态 到 下 一 个 状态 可 能 有 多 种 选择 ， 因 而 
规划 中 需要 采样 的 操作 ， 即 智能 体 随机 选 定 下 一 个 状态 并 继续 前 向 搜索 的 演算 过 程 。 因 
下 一 个 状态 的 选取 具有 随机 性 ， 并 且 有 可 能 服从 某 种 概率 或 分 布 ， 具 体 是 由 模拟 中 智 
采取 的 决策 策略 决定 的 。 
在 基于 模拟 的 搜索 中 ， 模 拟 策略 被 用 来 指导 规划 过 程 中 探索 的 方向 。 模 拟 策略 与 智能 体 学 习 
的 策略 相 结合 ， 有 助 于 规划 过 程 能 够 准确 地 反映 智能 体 当前 的 决策 策略 。 
下 面 将 进一步 介绍 几 种 不 同 的 基于 模拟 的 搜索 方法 并 结合 策略 学 习 来 解决 问题 。 
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E] 9.4 








9.4.1 ”朴素 蒙特 卡 罗 搜 索 





























如 果 一 开始 提供 了 固定 的 模型 M 和 固 
到 的 经 验 来 评估 对 应 动作 的 性 能 好 坏 并 更 新 学 习 





























前 向 搜索 























定 的 模拟 策略 r， 朴 素 蒙特 卡 罗 搜 索 可 以 依据 模拟 得 
到 的 策略 。 如 算法 9.31 所 示 ， 对 每 一 个 作用 了 




















当前 状态 Se 的 动作 a, a € 4， 执 行 模拟 策略 x 并 用 GP 表示 第 个 轨迹 的 全 部 奖励 。 根 据 保存 














值 选择 最 优 的 动作 。 


























的 轨迹 , 我们 利用 @(5i, AL) 来 评估 选择 动作 A 








算法 9.31 朴素 蒙特 卡 罗 搜 索 























的 性 能 ， 最 后 根据 当前 状态 下 所 有 动作 各 自 的 @ 





固定 模型 M 和 模拟 策略 x 


for 每 个 动作 we Ado 
for 每 个 片段 E € (1, 


根据 模型 M 和 模拟 策略 r, 从 当前 状态 Se 开始 在 环境 ， 
记录 轨迹 {54,a, R1, SE S AT uS RE s 





2... , K) do 


























xd 
$ 





I 


计算 从 每 个 Si 开始 的 累积 奖励 GE = OT RE 


end for 


K 
Q(81,a) 2 k 5; Gi 
k=1 


end for 


返回 当前 最 大 Q 值 的 动作 A, = arg max,e 4 Q(S:,a)- 











9.4.2 ”蒙特 卡 罗 树 搜索 


朴素 蒙特 卡 罗 搜 索 的 一 个 明显 不 足 是 ， 它 的 模拟 策略 是 固 
程 中 学 习 到 的 信息 。 蒙 特 卡 罗 树 搜索 (Monte Carlo Tree Search, MCTS) (Browne et al., 2012) 
也 说 ，MCTS 维护 了 一 棵 搜索 树 来 保存 收集 到 的 信息 并 逐步 优化 





是 针对 这 个 不 足 所 设计 的 。 具体 


模拟 策略 。 








如 算法 9.32 Bp. A 
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E 从 当前 的 状态 S, F 


























和 采样 到 一 个 轨迹 之 后 ， 对 于 轨迹 ! 








定 的 ， 从 而 没有 办 法 利 月 


所 


在 规划 








H i 











访问 过 的 














9.4 基于 模拟 的 搜索 





(s,a), MCTS 类 似 地 使 用 平均 
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策略 To 


Ne 


当前 并 不 在 























个 更 新 模拟 策略 x 




















算法 9.32 蒙特 卡 罗 树 搜索 





报 更 
的 方法 是 根据 当前 Q 值 的 。 贪心 策略 。 当 模拟 策略 到 达 一 个 新 的 
搜索 树 中 的 状态 的 时 候 ，r 转换 成 默认 
新 状态 会 接着 被 加 入 搜索 树 ! 
算 。 最 后 ， 智 能 体 选择 在 当前 状态 S, 上 有 最 大 Q 


。1 MCTS 重复 这 个 节点 评估 和 策略 提升 的 过 程 














新 了 Q 值 ， 进 而 根据 树 中 新 的 Q 值 更 新 每 个 节点 处 的 模拟 
































的 策略 ， 比 如 均匀 探索 策略 。 第 一 个 被 探索 的 


直到 到 达 模 拟 的 预 

















值 的 动作 。 





固定 模型 M 





初始 化 模拟 策略 m 
for 每 个 动作 ae Ado 
for 每 个 片段 ke {1,2,---,K} do 





根据 模型 M 和 模拟 策 


























各 7 从 当前 状态 S, 在 环境 
记录 轨迹 {S:, a, Ri+ı, $a, Ata, Rize, Tm ST) 

















展开 














从 (Si, At)» At = a 开始 的 平均 回报 更 新 每 个 (Si, 4;),i =t,--- TH Q fü 
由 当前 的 Q 值 更 新 模拟 策略 x 
end for 
end for 
返回 当前 最 大 Q 值 的 动作 Ay = arg maxae 4 @(S1, a) 











9.4.3 时间 差分 搜索 


除了 MCTS B 


的 方法 ， 时 间 差 分 〈Temporal Difference, TD) 搜索 同 档 
2012)。 和 MCTS 的 方法 相 比 ，TD 搜索 不 需要 演算 一 个 扩展 轨迹 并 / 


EF 受到 关注 (Silver et al., 
其 来 评估 和 更 新 当前 策略 。 
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在 模拟 的 每 一 步 ， 








策略 都 将 被 更 


, 





























新 并 














j 更 新 的 策略 指导 智能 体 在 下 一 个 状态 中 做 出 决策 动作 。 
































Dyna-2 算法 前 
组 网 络 参 数 ， 分 别 








LER 


存储 于 长 期 存储 











期 存储 空间 中 的 
网 络 参数 0 用 了 























网 





络 





1 TD 搜索 的 方式 (Silver et al., 2008)， 如 算法 9.33 所 述 ， 智 能 体 将 存储 两 








" 
T |H 


参数 将 会 根据 收集 到 























J 和 短期 存储 空间 。 在 下 层 中 通过 采用 TD 学 习 的 方法 ， 短 


的 模拟 经 验 进 行 更 新 ， 并 在 策略 Q 的 指导 下 将 学 到 的 










































































帮助 智能 体 在 真实 环境 中 做 出 决策 动作 ， 








而 在 长 期 存储 空间 的 网 络 参数 将 在 真实 














环境 的 探索 : 








和 MCTS 





通过 在 上 
最 终 智能 体 学习 到 的 最 
的 方法 相 
更 新 ，TD 搜索 倾向 于 降低 结果 




















佳 策略 。 











AY TD 学 习 得 到 更 


比 ， 由 于 每 一 步 策略 都 会 更 新 ，TD 搜索 会 更 有 效率 。 然 而 ， 由 于 
的 方差 但 


Bo TELE! 














学 习 到 的 基于 网 络 参数 0 的 策略 Q 将 是 











EI 
KE 











可 能 增 大 偏差 。 














! 另 一 个 方法 是 将 轨迹 上 所 有 新 的 节点 都 加 入 搜索 树 中 。 








算法 9.33 Dyna-2 
function LEARNING 
初始 化 Fs 和 万 
0 —0 8 初始 化 长 期 存储 空间 中 网 络 参数 
loop 
S 《一 So 
0 —0 # 初始 化 短期 存储 空间 中 网 络 参 数 
z 0 # 初始 化 资格 迹 
SEARCH(s) 
a € 1(s;Q) # 基于 和 Q 相关 的 策略 选择 决策 动作 
while s 不 是 终结 状态 do 
执行 a, 观测 奖励 > 和 下 一 个 状态 s 
(Fs, Fr) € UpdateModel(s, a,r, s”) 
SEARCH(s’) 
a! + n(s'; Q) # 选择 决策 动作 使 其 用 于 下 一 个 状态 s 
d+ r 4- Q(s', a^) — Q(s,a) # 计算 TD-error 
0 — 0 t- o(s, a)óz # 更 新 长 期 存储 空间 中 网 络 参 数 
zt Az+o # 更 新 资格 迹 
s+} s', a «— al 
end while 
end loop 
end function 




































































function SEARCH(s) 
while 时 间 周 期 内 do 
zc0 # 清除 短期 存储 的 资格 迹 
a € 7(s; Q) # 基于 和 Q 相关 的 策略 决定 决策 动作 
while s 不 是 终结 状态 do 





























5 + Fs(s,a) # 获得 下 一 个 状态 

r+ F,(s,a) # 获得 奖励 

a! T(S; Q) 

ó — R+Q(s',a’) — Q(s,a) # 计算 TD-error 

















06--a(s,a)óz # 更 新 短期 存储 空间 中 网 络 参数 
ZeAZ+¢4 # 更 新 短期 存储 的 资格 迹 
s¢ sata’ 
end while 
end while 
end function 
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分 层 强 化 学 习 



































在 本 章 中 ,我 们 将 介绍 分 层 强 化 学 习 。 它 是 一 种 通过 构建 并 利用 认 知 和 决策 过 程 的 底层 结构 
来 提高 学 习 效 果 的 方法 。 有 具体 来 说 ， 首 先 我 们 将 介绍 了 分 层 强化 学 习 的 背景 和 两 个 主要 类 别 : 选 
项 框架 (Options Framework) 和 封建 制 强化 学 习 〈Feudal Reinforcement Learning)。 然 后 我 们 将 详 
细 介 绍 这 些 类 别 中 的 一 些 典 型 算法 ， 包 括 战略 专注 作家 (Strategic Attentive Writer). RIA 
COption-critic) 和 封建 制 网 络 (Feudal Networks) 等 。 在 本 章 的 最 后 ,我 们 对 近年 来 关于 分 层 强化 
学 习 的 研究 成 果 进 行 了 总 结 。 
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10.1 简介 





近年 来 ， 深 度 强化 学 习 在 许多 领域 取得 了 显著 的 成 功 (Levine et al., 2018; Mnih et al., 2015; 
Schulman et al., 2015; Silver et al., 2016, 2017)。 然而 , 长 期 规划 对 智能 体 来 说 仍然 是 一 个 挑战 , 特别 
是 在 一 些 奖励 稀 艳 、 大 时 间 跨 度 的 环境 ,例如 Dota (OpenAL, 2018) 和 《星际 争霸 》 (Vinyals et al., 
2019)。 分 层 强 化 学 习 (Hierarchical Reinforcement Learning，HRL) 提供 了 一 种 方法 来 寻找 这 种 
复杂 控制 问题 中 的 时 空 抽象 和 行为 模式 (Bacon et al., 2017; Barto et al., 2003; Dayan, 1993b; Dayan 
et al., 1993a; Dietterich, 1998, 2000; Hausknecht, 2000; Kaelbling, 1993; Nachum et al., 2018; Parr et al., 
1998a; Sutton et al., 1999; Vezhnevets et al., 2016, 2017)。 与 人 类 认 知 的 层次 结构 类 似 ，HRL 具备 抽 
象 多 层次 控制 的 潜力 ， 其 中 高 层次 的 长 期 规划 和 元 学 习 指导 低层 次 的 控制 器 。 层 次 结构 的 模块 化 
也 提供 了 可 移植 性 和 可 解释 性 , 例如 , 理解 地 图 和 达到 有 利 状 态 的 技术 通常 在 像 grid-world (Tamar 
et al., 2016) 或 者 Doom (Bhatti et al., 2016; Kempka et al., 2016) 这 样 的 游戏 中 十 分 有 用 。 

以 往 对 HRL 的 研究 大 多 从 4 个 主要 方面 展开 : 选项 框架 (Options Framework) (Sutton et al., 
1999)、 封 建制 强化 学 习 (Feudal Reinforcement Learning, FRL) (Dayan et al., 1993a)、MAXQ 分 解 
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10.2 ”选项 框架 





(MAXQ Decomposition) (Dietterich, 2000) 和 层次 抽象 机 (Hierarchical Abstract Machines, HAMs) 
(Parr et al., 1998a,b) 在 选项 框架 中 ， 高 层 策略 会 在 特定 的 时 间 步 上 切换 低层 策略 ， 以 便 在 时 间 域 


JE 


的 状态 


中 





分 解 问 题 。 在 FRL 











| 象 方法 。HAMs 则 

















智能 体能 执行 的 动作 受 














BE 
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An 


10.2 






































学 习 的 最 新 研究 成 果 。 
尾 对 深度 HRL 进行 了 简要 
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选项 框 染 











智能 体 中 ， 高 层 控制 器 负责 为 下 层 控制 器 提出 明确 
状态 )， 来 实现 状态 空间 的 层次 分 解 。MAXQ 分 解 也 提出 了 一 种 将 子 任务 的 解 三 
考虑 了 一 个 学 习 过 程 来 减少 大 型 复杂 问题 中 的 搜索 空间 ， 其 学 习 过 程 
民 于 有 限 状态 机 的 层次 。 在 本 章 中 ， 我 们 将 重点 介绍 在 HRL 中 应 ) 
\ 体 来 说 ， 我 们 讨论 了 分 别 属于 选项 框架 和 FRL 的 两 种 算法 ， 并 在 本 


的 总 结 。 








的 目 












































标 〈 如 某 些 特定 的 
5 Q 值 函 数 相 结合 























JR 
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选 ] 
称 为 技 








时 序 上 的 隐 式 分 割 点 ， 来 表示 相应 的 子 策略 








E 
已 
6 





种 具 


项 框架 (Hausknecht, 2000; Sutton et al., 1999) 将 动作 在 时 间 


fi 
终止 条 件 的 子 策略 。 它 观察 环境 并 输出 动作 ， 直 到 
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zx [H 





















































扩展 。 选 项 COptions)， 也 
(Da Silva et al., 2012) 或 者 宏 操 作 (Hauskrecht et al., 1998; Vezhnevets et al., 2016)， 是 
满足 终止 条 件 为 止 。 终 止 条 件 是 一 类 
己 的 工作 ， 且 顶层 的 选项 策略 (Policy- 





OverAction) 需要 切换 至 男 一 个 选项 。 给 定 一 个 状态 集 为 6、 动作 集 为 A 的 MDP， 选项 we 0 




























































































被 定义 为 三 元 组 (Iw, Tw, bu) H! 

HERK, M 6. :S 一 

只 有 在 s 

Hg 

由 

能 包含 一 个 用 于 靠近 、 抓 取 和 
尤其 特别 的 是 ， 一 个 选项 框架 

个 
























































选项 策略 选择 一 个 选项 










































































I, € S 为 一 组 初始 状态 集 ，rw :S x A [0,1] 是 一 个 选项 
0, 1] 是 一 个 通过 伯 努 利 分 布 提供 随机 终止 条 伯 
I 时， 才能 用 于 状态 s。 一 个 智能 体 通 过 
直到 终止 条 件 满足 ， 然 后 再 次 查询 选项 策略 并 重复 该 步骤 。 注 意 ， 若 选项 w 
相应 的 策略 rw 进行 选择 ， 直 到 选项 根据 bo 被 随机 终止 。 比 如 说 ， 一 个 名 为 “开门 ”的 选项 可 
转动 门 把 手 的 策略 ， 以 及 一 个 确定 门 被 打开 概率 的 终止 条 件 。 


F 的 终止 函数 。 一 个 选项 w 


， 并 继续 保持 该 策 
被 执行 ， 则 动作 将 





1 两 层 结构 组 成 : 底层 的 每 个 元 素 是 一 个 选项 ， 而 顶层 则 是 一 
选项 策略 ， 用 来 在 片段 开始 或 上 个 选项 终结 时 候选 择 一 个 选项 。 选 项 策略 从 环境 给 出 的 奖励 信 


























息 学 习 ， 而 选项 可 通过 明确 的 子 目标 来 学 习 。 例 如 ， 在 表格 情况 下 ， 每 个 状态 


的 候选 (Schaul et al., 2015; Wiering et al., 1997)。 
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AS 


MDP. 


an 


标准 技术 来 进行 学 习 。 























Bb ee 





在 选项 框架 








， 顶 层 模块 学 习 的 是 


个 选项 策略 ， 而 底层 模块 学 习 





。 这 可 以 看 成 马尔 可 夫 过 程 7 














(Sutton et al., 1999)， 如 图 
EN 
中 的 顶 
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层 选项 


^E EST [R] 
Markov Decision Process, SMDP) 为 动作 间 持 续 时 间 
10.1 所 示 。 
F(t|s, a) 给 出 在 状态 s 下 执行 动作 a 时， 转移 时 
屋 控 制 可 以 被 看 成 一 个 SMDP 上 的 策略 。 对 于 多 级 选项 的 情况 ， 更 高 
在 时 间 上 进一步 扩展 的 SMDP (Riemer et al., 2018). 


==] 


Z 











一 县 给 出 了 选项 ， 则 顶层 可 以 将 其 作为 动作 ， 通 


可 以 被 看 作 子 目 标 


























能 完成 各 个 选项 目标 的 策 
〈 几 个 时 间 步 ) 上 的 分 解 。 半 马尔 可 夫 决 策 过 程 (Semi- 


















































1L 备 不 确定 性 的 选项 框架 提供 
SMDP 是 一 个 具备 额外 元 素 F: (S, A, P, R, F) 的 标准 
IZ t 的 概率 。 不 严谨 地 说 ， 选 项 框 














个 理论 观 

















层 的 选项 可 以 看 成 
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时 间 








A 











10.1 que 视角 下 的 选项 ， 改 编 自 文献 (Sutton et al, 1999). 顶部 :一 -1 马尔 可 夫 决 策 过 程 





( MDP ) 的 状态 轨迹 。 中 部 ; 一 个 半 马 尔 可 夫 决 策 过 程 ( SMDP ) 的 状态 轨迹 。 底 部 : 























个 两 层 结构 上 MDP 的 状态 轨迹 。 实 心 圆 表示 SMD 的 决策 ， 而 空心 圆 则 是 相应 选项 包含 














的 原始 动作 





研究 表明 ， 人 工 定义 的 选项 通过 和 深度 学 习 的 结合 ， 即 使 在 像 《 我 的 世界 》 和 雅 达 利 游戏 这 






























































样 很 有 挑战 性 的 环境 中 ， 也 可 以 取得 显著 的 效果 (Kulkarni et al., 2016; Tessler et al., 2017)。 然 而 ， 
初始 集 和 终结 条 是 选项 框架 & 的 一 个 制约 因素 。 例 如 ， 一 个 人 工 定义 的 策略 mu 是 让 移动 机 器 人 
插 上 它 的 充电 器 ， 而 它 很 有 可 能 是 只 为 充电 器 在 视野 范围 内 的 状态 而 定制 的 。 终 结 条 件 表明 当 机 





























器 人 成 功 插 上 充电 器 或 者 状态 在 Du 之 外 时 ,终结 的 概率 为 1。 因此， 如 何 自 动 地 发 掘 选 项 也 曾 是 
HRL 的 一 个 研究 主题 。 我 们 将 介绍 两 种 算法 ， 它 们 将 选项 发 掘 表 示 为 优化 问题 ， 并 用 函数 通 近 的 
方式 解决 这 类 问题 。 第 一 个 是 一 种 深度 递归 神经 网 络 ， 被 称 为 战略 专注 作家 (Strategic Attentive 
















































































Writer，STRAW)， 它 通过 开 环 选项 内 置 策略 ! COpen-Loop Intra-Option Policies) 学 习 选 项 。 第 二 

















个 则 是 考虑 闭环 选项 内 置 策略 2〈Close-Loop Intra-Option Policies) 的 选项 -批判 者 〈Option-Critic ) 





结构 。 


10.2.1 战略 专注 作家 




















战略 专注 作家 (Vezhnevets et al., 2016) 是 一 种 新 奇 的 深度 递归 神经 网 络 结构 。 它 对 常见 的 动 
作 序 列 ( 宏 动作 〉 进行 时 域 抽象 ， 并 通过 这 些 动作 进行 端 到 端的 学 习 。 值 得 注意 的 是 ， 宏 动作 是 
个 在 神经 网 络 中 隐 式 表示 的 特定 选项 。 其 动作 序列 (或 者 在 此 之 上 的 分 布 ) 是 在 宏 动 作 被 初始 













































































化 的 时 候 决 定 的 。STRAW 分 别 包 含 短期 动作 分 布 和 长 期 计划 这 两 个 模块 。 
第 一 个 模块 将 环境 的 观测 数据 转化 为 一 个 动作 -计划 (Action-Plan), 它 是 一 个 显 


! 开 环 意 即 不 将 控制 的 结果 反馈 ， 进 而 影响 当前 控制 的 系统 。 
?闭环 意 即 将 控制 的 结果 进行 完全 反馈 ， 进 而 影响 当前 控制 的 系统 。 
















































































300 





XX (Explicit) 


10.2 ”选项 框架 




































































的 随机 变量 ， 用 于 表示 接 下 来 一 段 时 间 内 计划 执行 的 动作 。 当 时 间 步 为 上 时， 动作 -计划 表示 为 矩 
阵 4eRI4x7， 其 中 下 是 计划 的 最 大 时 间 跨 度 ， 而 在 A 中 的 第 7 列 对 应 动作 在 时 间 步 ++r 的 
分 对 数 。 

第 二 个 模块 通过 单行 矩阵 ct e RIST 维护 承诺 -计划 CCommitment-Plan) ， 即 一 个 决定 在 哪 
一 步 网 络 结束 一 个 宏 动作 并 更 新 动作 -计划 的 状态 变量 。 在 时 间 步 为 上 时，c 扩 : 的 第 一 个 元 素 提 
供 了 终止 条 件 的 伯 努 利 分 布 的 参数 。 在 落实 计划 的 期 间 ， 行 动 -计划 At 和 承诺 -计划 cf 都 被 一 个 




















时 间 移 位 运算 符 p 直接 滑动 至 下 一 步 ， 其 中 p 通过 移 除 矩 阵 的 第 一 列 并 在 末尾 添 0 的 形式 来 移动 























图 10.2 显示 了 一 个 包含 动作 -计划 和 承诺 -计划 的 STRAW 工作 流 示例 。 为 了 更 新 这 两 类 计划 ， 























STRAW 在 时 间 维 度 上 使 用 了 专注 写作 技术 (Gregor et al., 2015)， 它 使 网 络 能 够 聚焦 在 当前 部 分 。 


该 技术 将 一 
|A| x K 一 维 
































个 高 斯 滤波 器 矩阵 治 着 时 间 维 度 应 用 于 计划 。 更 准确 地 说 ， 对 于 时 间 大 小 K, =e 












































高 斯 滤波 器 的 网 格 通 过 指定 网 格 中 心 的 坐标 和 相 邻 过 滤器 之 间 的 步 幅 来 在 计划 中 定 






































位 。 








注意 ， 这 里 的 步 幅 (Stride〉 和 CNN 中 的 相同 术语 相似 。 让 v^ 作为 动作 -计划 的 注意 力 参 数 ， 




















即 高 斯 滤波 器 的 网 格 位 置 、 步 幅 和 标准 差 。STRAW 将 注意 力 操 作 定 义 如 下 : 





图 10.2 


Commitment Plan C —— > C me CSS 6 








D = write(p, v); B, = read( A‘, YA), (10.1) 


Action Plan 






















































































=1* rej dede ommit > o commit" > 1« replan 
STRAW PN | | qm a 
ConvNe | 
t BE | | Jc | 
| | | l 
Time = | = | t=3 | t=4 | t=5 
STRAW 在 一 个 迷宫 导航 游戏 中 的 工作 流程 ， 改 编 自 文献 (Vezhnevets et al., 2016)。 AMA 
据 是 原始 像素 ， ieee 以 是 蓝 色 、 黑 色 、 红 色 和 绿色 , 分 别 代表 墙 、 走 万 、 智 
能 体 和 最 终 目 的 地 。 动 作 空 间 为 上 、 下 、 左 、 右 四 个 方向 的 移动 。 当 t= 工时 ， 帧 的 特 
征 被 一 个 卷 积 神 ape eae de STRAW 立刻 产生 两 个 计划 。 在 紧 接 着 的 2 
个 时 间 步 中 ， 这 两 个 计划 被 p 滑动 。 之 后 ， 智 能 体 来 到 角落 并 由 承诺 -计划 ct 给 出 一 个 


重新 计划 的 信号 (add) 
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KB, pe R^*K 是 一 个 时 间 窗 口 为 K 的 计划 补丁 。write 操作 生成 了 一 个 与 A! 相同 大 小 
的 平滑 计划 D, m read 操作 生成 了 一 个 读 取 补 丁 Bl € 了 R4xK 。 此 外 ， 将 z 作为 在 时 间 步 t 下 的 
观测 数据 的 特征 表示 ， 并 将 相似 的 注意 力 技术 应 用 于 承诺 -计划 ， 计 划 的 更 新 算法 如 算法 10.34 所 
示 。 其 中 fv. fA 和 f° 都 是 线性 函数 ，h 是 一 个 多 层 感知 器 ，b e RIT 是 一 个 具有 相同 标量 参 
Alb 的 偏差 ， 而 e 是 固定 为 40 的 标量 (Vezhnevets et al., 2016)， 以 便 经 常 重新 做 计划 。 











































































































算法 10.34 STRAW 中 的 计划 更 新 
if g = 1 then 
计算 动作 -计划 的 注意 力 参 数 v = f" (i) 
应 用 专注 阅读 : GB, = read(A'-!, wA) 
计算 中 间 表 示 e = h(concat( Bz, zi)) 
计算 承诺 -计划 的 注意 力 参 数 Vm Lt (concat(V^, €x)) 
EP A' = (AC) + write( file), vA) 
更 新 c, = Sigmoid(b + write(e, Wf)) 
else 















































p(A‘*) 
p(cr— 


d At = 
HH c= Y 




















对 于 进一步 的 结构 化 搜索 , STRAW 在 对 角 高 斯 分 布 上 使 用 了 重 参 数 技术 Qal) =N (a), 
c(G)), RP c 是 特征 提取 器 的 输出 。STRAW 的 训练 loss 被 定义 如 下 : 


























T 
£ — MA) + ogiKL(QGa|G)| Pa) + Aci), (10.2) 


t=1 


其 中 , DL ER ETA BR CP TEL FR OT BULA, Pla) 是 一 个 先决 条 件 ， 而 最 
后 一 项 惩罚 了 重新 计划 并 鼓励 承诺 。 

要 特别 注意 的 是 , STRAW 是 一 个 网 络 结构 。 对 于 强化 学 习 的 任务 , 可 以 使 用 一 系列 的 强化 学 
习 算 法 。 文 献 (Vezhnevets et al., 2016) 展示 了 在 《2D 迷宫 》 和 雅 达 利 游戏 上 使 用 A3C (Mnih et al., 
2016) 算法 的 效果 。《2D 迷宫 》 是 由 许多 格子 组 成 的 一 个 2D 网 格 世界 ， 其 中 每 个 格子 只 可 能 是 
墙壁 或 者 通道 ， 而 其 中 ， 某 个 通道 会 随机 选择 为 目的 地 。 智 能 体 将 完全 观测 到 迷宫 的 状态 ， 并 需 
要 通过 结构 化 探索 来 到 达 目 标 。 在 本 任务 中 ， 文 献 (Vezhnevets et al., 2016) 展示 了 STRAW 在 策 
略 上 的 表现 优 于 LSTM， 并 且 很 接近 由 Dijkstra 算法 给 出 的 最 优 策 略 。 在 雅 达 利 游戏 领域 中 ， 文 
HA (Vezhnevets et al., 2016) 选 出 了 8 个 需要 一 些 规划 和 探索 的 游戏 ， 其 中 STRAW 及 其 变 体 在 8 个 
游戏 中 的 6 个 里 ， 比 LSTM 和 简单 前 馈 网 络 在 游戏 中 获得 了 更 高 的 分 数 。 
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10.2.2 ”选项 -批判 者 结构 


选项 -批判 者 结构 COption-Critic Architecture) (Bacon et al., 2017) 将 策略 梯度 定理 扩展 至 选 
项 ， 它 提供 一 种 端 到 端的 对 选项 和 选项 策略 的 联合 学 习 。 它 直接 优化 了 折扣 化 回报 。 我 们 先 考 虑 
将 选项 -价值 函数 定义 如 下 : 



























































Qals w) = M m(als)Qu(s,w, a), (10.3) 

















其 中 Qu : Sx 1 x A> 民 是 在 确定 状态 -选项 对 (s,w) 后 执行 某 个 动作 的 价值 : 














Qu(s,w,a) = R(s,a) y p(s'|s,a)U(w, s"), (10.4) 




















H'BU:0xS—oRJÉA-—T MS s 时 ， 执 行 w 的 价值 : 























U(w, s) = (1 — Bols) Qal, w) + Buls) Vols), (10.5) 














IT 








Vo : S 一 及 是 选项 的 最 优 价值 函数 ， 




















k—1 
Vals’) = may E, [D Poe + 7 Va (S) = $"), (10.6) 


























其 中 天 是 w 在 状态 s 中 的 预计 持续 时 间 。 因 此 ， 我 们 可 以 定义 4p : Sx 0 2 R 为 选项 的 
优势 函数 : 








Ao(s,w) = Qa(s,w) — Vo(s). (10.7) 












































如 果 选 项 wi 曾 被 初始 化 或 者 已 经 在 状态 S. 中 执行 了 + 个 时 间 步 ， 通 过 将 状态 -选项 对 视 为 马 











2 7, (a| Si) PSl St a). — Bos Siri) looi + Ba (Se41) 0 (wea Se41)]- (10.8) 




















通过 假设 所 有 选项 在 任何 地 方 都 可 用 ， 上 述 转移 是 一 个 在 状态 -选项 对 的 唯一 稳 态 。 

用 于 学 习 选 项 的 随机 梯度 下 降 算法 的 结构 如 图 10.3 所 示 ， 其 中 梯度 由 定理 10.1 和 定理 10.2 
给 出 。 然而, 文献 (Bacon et al., 2017) 提出 了 通过 一 种 基于 两 种 时 间 尺 度 结构 来 学 习 价 值 ， 在 更 新 
选项 内 置 策略 使 用 更 快 的 时 间 尺 度 ， 而 更 新 终止 函数 时 使 用 比例 更 小 的 时 限 (Konda et al., 2000). 
我 们 可 以 从 行动 者 -批判 者 结构 中 看 出 ， 选 项 内 置 策略 、 终 止 函 数 和 选项 策略 都 属于 行动 者 的 部 
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分 ， 而 批判 者 则 包括 Qu 和 Age 


批判 














图 103 选项 -评判 家 结构 ， 改 编 自 文献 (Bacon et al, 2017) 








定理 10.1 选项 内 置 策略 梯度 理论 CIntra-Option Policy Gradient Theorem) (Bacon et al., 2017) 给 
定 一 组 马尔 可 夫 选 项 ， 随 机 选项 内 置 策略 对 它们 的 参数 9 可 微 。 折 扣 化 回报 期 望 关于 4 和 初始 条 
fF (8,0) 的 梯度 为 


OTt, o(a|s) 


S Hols, 18,0) >) — mr Qu(s,w, 4); (10.9) 








其 中 pwo(s,w|8,0) = Dico Y P(S: = 8,4 = w|So = 8,wo = 0) 是 一 个 沿 着 从 (8,0) 开始 的 轨 
迹 的 状态 -选项 对 的 折扣 化 权重 。 


定理 10.2 终止 梯度 定理 (Termination Gradient Theorem) (Bacon et al., 2017) 给 定 一 组 马尔 可 夫 
选项 ， 选 项 的 随机 终止 函数 对 其 参数 o 可 微 。 折 扣 化 回报 目标 期 望 对 于 y 和 初始 条 件 (8,0) 的 
梯度 为 


— M uol, us, d) Ao(s',w), (10.10) 


s! w 


Buls") 
Op 





其 中 uo(s.w|$,2) = Yo Y p(St = sux = w|So = $ wo = 0) 是 一 个 沿 着 从 (8,0) 开始 的 轨迹 的 
状态 -选项 对 的 折扣 化 权重 。 
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文献 (Bacon et al., 2017) 提供 了 离散 和 连续 环境 下 的 实验 。 在 离散 环境 中 ， 文 
2017) 在 雅 达 利 学 习 环境 (Arcade Learning Environment, ALE) (Bellemare et al., 2013) 中 训练 了 4 



































个 雅 达 利 游戏 ， 这些 训练 与 文献 (Mnih et al., 2015) 采取 了 相同 的 设置 。 结 果 表 明 ， 

















其 目的 地 也 随机 生成 。 通 过 选项 -所 

































































献 (Bacon et al., 

















选项 -批判 者 能 














够 在 这 全 部 4 个 游戏 中 学 到 结构 选项 。 在 连续 环境 中 ， 文 献 (Bacon et al., 2017) 选择 了 Pinball 游 
XX (Konidaris et al., 2009)， 游 戏 中 智能 体 控制 一 个 小 球 在 随机 形状 的 多 边 形 2D 迷宫 中 进行 移动 ， 









































b 判 者 学 习 到 的 轨迹 表明 ， 智 能 体 可 以 实现 时 域 抽象 。 








10.3 ”封建 制 强化 学 习 
封建 制 强化 学 习 《〈Feudal Reinforcement Learning, FRL) (Dayan et al., 1993a) 提出 了 一 种 封建 











励 隐藏 指 的 是 ， 无 论 某 管理 者 做 出 的 指令 是 否 能 使 其 上 级 满意 ， 该 管理 者 的 下 级 都 必须 服从 。 而 


















































制 等 级 结构 。 其 中 ， 管 理 者 有 着 为 他 们 工作 的 下 级 管理 者 和 他 们 自己 的 上 级 管理 者 。 它 反映 了 封 
































建 等 级 制度 ， 其 中 每 层 的 各 个 管理 者 可 以 为 他 们 的 下 级 设置 任务 、 奖 励 和 惩罚 。 有 两 个 保证 封建 









































制 规则 的 关键 原则 需要 被 重视 : 奖励 隐藏 (Reward Hiding) 和 信息 隐藏 (Information Hiding )。 奖 



























































言 息 隐藏 是 指 管理 者 的 下 级 不 知道 该 管 























































































































: 里 者 被 派 予 的 任务 ,而 管理 者 的 上 级 也 不 知道 该 管理 者 给 
其 下 级 安排 了 什么 任务 。 顶 层 的 封建 智能 体 并 非 像 选 项 框架 那样 学 习 一 个 选项 的 时 间 分 解 ， 而 是 










































































封建 制 网 络 (Feudal Networks，FuNs)。 它 可 以 自动 发 现 子 目 标 , 并 且 具 备 奖 励 隐 


软 条 件 。 





























通过 为 底层 策略 制定 明确 目标 来 分 解 状态 空间 的 问题 。 这样 的 结构 允许 强化 学 习 扩 展 到 管理 层 之 
间 有 具有 明确 分 工 到 大 型 领域 中 。 
在 这 种 解 耦 学 习 的 启发 下 ,文献 (Vezhnevets et al., 2017) 引入 了 一 种 新 的 神经 








网 络 结构 ， 称 为 
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策略 修正 的 分 层 强化 学 习 (Hierarchical Reinforcement Learning with Off-policy Correction, HIRO) 


























10.3.1 

















封建 制 网 络 





可 进一步 提高 了 离线 策略 经 验 的 样本 效率 (Nachum et al., 2018)。 实 验 显 示 ，HIRO 取得 了 显著 的 
进展 ， 并 且 能 解决 非常 复杂 的 结合 运动 和 基本 物体 交互 的 问题 。 


H% (Feudal Networks, FuNs) 是 一 个 完全 可 微 模块 化 的 FRL 神经 网 络 ， 它 有 两 个 


























模块 : 管理 者 和 工作 者 。 管 理 者 在 一 个 潜在 状态 空间 中 更 低 的 时 间 分 辨 率 上 设 定 



































则 学 习 妇 
SEA: 








目标 ， 而 工作 者 





中 何 通过 内 在 奖励 达到 目标 。 图 10.4 展示 了 FuN 的 结构 ， 其 中 前 向 过 程 可 以 描述 成 以 下 

















Zt 一 TOUS 
m, = ‘ee S 


h, di = f" (mz, hi! 1); gi = lil; 


(10.11) 
(10.12) 
(10.13) 
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t 
wr =9 | 2 «| (10.14) 
i—t—c 

















hY, Ui Sq (zt, h) (10.15) 
7, = SoftMax(U;w;) (10.16) 
管理 者 








二- 策略 梯度 转换 


z 


-- 策 略 梯度 


工作 者 
图 104 FuN 的 结构 ， 改 编 自 文献 (Vezhnevets etal., 2017)。 在 文献 (Vezhnevets et al, 2017) 中 ， 超 参 














Xk FI d REN k= 16 < d= 256 









































其 中 z 是 8 的 表示 ，fMPaee 向 管理 者 提供 状态 mo M g 表示 管理 者 输出 的 目标 。 在 FRL 

































































zE 
nu 





别 对 

















要 注意 以 下 两 个 原则 : 管理 者 和 工作 者 之 间 没 有 梯度 传播 ， 但 接收 观测 数据 的 感知 机 模块 
































fPecert 共享 。 管理 者 的 pMme 和 工作 者 的 fw 都 是 循环 模块 ，fMspaee 是 全 连接 的 。hM 和 hw 分 














应 管理 者 和 工作 者 各 自 的 内 部 状态 。9 是 一 个 无 偏 线性 变换 ， 将 目标 gi 映射 成 一 个 嵌入 向 








量 ws。Ui 表示 动作 的 典 入 矩阵 ， 它 通过 矩阵 与 wi 的 积 输 出 工作 者 动作 策略 的 分 对 数 。 




































































考虑 到 标准 强化 学 习 的 设置 是 最 大 化 折扣 化 回报 Gi = Drao Res 一 个 自然 而 然 的 学 习 
结构 的 方法 就 是 通过 策略 梯度 算法 进行 端 到 端 训练 ， 因 为 FuNs 全 部 可 微 。 然 而 这 样 会 导致 
会 被 工作 者 通过 任务 目标 传播 给 管理 者 ， 这 可 能 导致 目标 会 变 成 一 个 内 部 潜在 变量 ， 而 不 是 
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示 志 。 因 此 ，FuN 分 别 训练 管理 者 和 工作 者 。 对 于 管理 者 ， 更 新 规则 遵循 预测 优势 方向 : 









































Vg; = (Gt — VM (Si,0))Vodoos (Mite — mi, ge(0)) (10.17) 


10.3 封建 制 强化 学 习 





























训练 工作 者 ， 软 化 了 原始 FRL ! 


















































的 奖励 隐藏 条 件 ， 其 




















其 中 ， VM Ae FEST ES 48 ER UC, 而 dcos (ex, B) = a™B/(\a||B}) 是 余弦 相似 度 。 53— Jj IB xc: 
作者 可 以 通过 任意 现成 的 深度 强化 学 习 方式 训练 ，3 

















其 内 在 奖励 定义 如 下 : 





1 c 
Ri = T 5 deos (m E TI4 i; Gt-i) (10.18) 





























， 状 态 空间 中 的 方向 偏 移 为 目标 提供 了 结构 不 变性 。 在 实践 中 ，FuN 通过 使 用 尼 + aR} 

















a 是 一 个 正则 化 内 在 奖励 影响 的 超 参 数 。 


wr 




















文献 (Vezhnevets et al., 2017) 也 提供 了 一 个 关于 管理 者 训练 规则 的 理论 分 析 。 考 虑 到 有 高 层 


跨 策略 的 策略 o(54,0)， 它 在 
分 布 p(Si4c|S4,o0) 可 以 被 看 作 一 个 转移 策 
们 可 以 在 高 层 MDP 对 aT (S;4..[5;, 0) 应 | 





Ver? (Stire| St, 0) 











固定 时 长 c 下 ,在 几 个 子 策 














咯 中 进行 选择 。 对 每 个 子 策略 来 说 ， 转 移 

















各 TT (Ste St, 0). 和 选项 框架 的 SMDP 视 类 似 ， 我 
































策略 梯度 理论 。 


((G, — VM (Si, 0))Vo log p(Si+¢| St, 0)] (10.19) 


这 也 被 称 为 转移 策略 梯度 (Transition Policy Gradients). 假设 方向 8,4. — Si 遵循 Mises-Fisher 


分 布 ， 我 们 可 以 得 到 logp(Stre|Si,0) x deos(St4 
此 外 ， 文献 (Vezhnevets et al., 2017) 提出 了 用 于 管理 才 














c 一 St, gt)o 


























的 Dilated LSTM, 与 空洞 卷 积 一 样 ， 可 








以 在 分 辩 率 无 损 的 情况 下 获取 更 大 的 感受 野 。Dilated LSTM 维持 了 几 个 内 部 LSTM 单元 的 状态 。 
在 任意 时 间 步 中 ， 只 有 一 个 单元 状态 被 更 新 ， 而 输出 的 是 最 近 ce 个 被 更 新 的 状态 进行 池 化 后 的 





结果 。 





需要 注意 的 是 , 与 STRAW 相 类 似 , FuN 也 是 一 个 



















































































JF HRL 的 神经 网 络 结构 。 文 献 (Vezhnevets 





et al., 2017) 选择 了 A3C 作为 强化 学 习 算 法 ， 并 设计 了 一 系列 的 实验 来 显示 FuN 相对 于 LSTM 的 


有 效 性 。 首 先 ， 它 
是 一 个 雅 达 利 游戏 ， 它 在 强化 学 习 领域 是 个 难 












































献 (Vezhnevets et al., 2017) 使 用 














展示 了 对 FuN 应 用 在 Montezuma’s Revenge 游戏 的 分 析 。Montezuma’s Revenge 





题 。 它 需要 通过 许多 技巧 来 控制 角色 躲 开 致命 的 陷 






























































2016) 3X il 





10.3.23 ”离线 策略 修正 


HRL Jj 























FuN 使 用 神经 网 络 结构 来 学 习 
和 选项 的 终止 条 件 。HRL 还 存在 许多 问题 , 例如 通用 性 、 








结合 起 来 能 产生 更 有 价 


E FuN. ‘ill 

















EBH FuN 学 习 了 更 加 























法 提出 训练 多 名 来 对 时 间 和 行为 进 


























阱 ， 并 且 从 稀 玻 奖励 中 进行 学 习 。 实 验 结 果 显 示 ，FuN 在 采样 效率 上 有 着 显著 的 提高 。 此 外 ， 它 
在 另外 10 款 雅 达 利 游戏 中 也 有 效果 提升 ， 其 中 FuN 的 分 数 明 显 高 于 选项 -批判 者 结构 。 同 样 ， 文 
了 4 个 不 同等 级 的 DeepMind KRE 3D 游戏 平台 (Beattie et al., 
有 意义 的 子 策略 ， 之 后 将 这 些 子 策略 在 内 存 中 高 效 地 









































行 抽 象 。 在 前 几 节 中 ,我 们 讨论 了 STRAW 和 
个 分 层 策略 ， 而 选项 -批判 者 结构 则 端 到 端 地 同时 学 习 内 部 策略 



























































可 迁移 性 和 采样 效率 等 。 在 本 节 中 , 我 们 
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将 介绍 离线 策略 修正 分 层 强 化 学 习 (Hierarchical Reinforcement Learning with Off-policy Correction, 
HIRO) (Nachum et al., 2018)。 它 为 训练 HRL 智能 体 提供 了 一 种 普遍 适用 且 数 据 效率 很 高 的 方法 。 

一 般 来 说 ，HIRO 考虑 了 高 层 控制 器 通过 自动 提出 一 些 目标 来 监督 低层 控制 器 的 方案 。 更 准 
确 地 说 ， 在 每 个 时 间 步 t+ 中 ，HIRO 通过 一 个 目标 gi 来 驱动 智能 体 。 给 定 一 个 用 户 指 定 的 参数 c, 
若 上 是 c 的 倍数 ， 则 目标 gs 由 高 层 策略 u^ 产生 ， 和 否则 gs 由 目标 转移 函数 h: gs = h(St-1, gii. 
5,) 通过 之 前 的 目标 g1 提供 。 和 FuN 类 似 ， 目 标 是 指 包 含 所 需 位 置 和 方向 信息 在 内 的 高 层 决 
策 。 实 验 发 现 ， 与 在 嵌入 空间 中 表示 目标 不 同 ，HIRO 直接 使 用 原始 观测 数据 更 为 有 效 。 需 要 注 
意 的 是 ， 我 们 可 以 根据 特定 任务 的 领域 知识 设计 内 在 奖励 和 目标 转移 函数 。 有 具体 来 说 ， 在 最 简单 
的 情况 下 ， 内 在 奖励 被 定义 如 下 : 










































































































































































































































































Ri = —||Si + g — Sella, (10.20) 
目标 转移 函数 被 定义 为 


A(S¢—1, 9-1, St) = Sia + già — Si (10.21) 








来 维持 目标 方向 。 

为 了 提高 数据 效率 ，HIRO 将 离线 策略 技术 扩展 到 高 层 和 低层 训练 。HIRO 让 低层 策略 以 
FEMA (St, ge, At, RE, Sci ASe go Sia). JE gt 视 为 模型 的 额外 输入 ， 以 支持 任意 离线 算 
法 训练 这 些 策略 。 对 于 高 层 策略 ， 转 移 元 组 (Siit46, Gitte, Atit+e, Ritte, Ste) Cv’ 在 Python 中 
表示 切片 操作 。 这 里 的 切片 不 包括 最 后 的 元 素 ) 也 可 以 通过 任意 的 离线 策略 算法 进行 训练 ， 这 
里 只 需 将 g 视 为 一 个 动作 并 累加 Reese 作为 奖励 。 然 而 过 去 的 低层 控制 器 观测 的 转移 数据 并 
不 能 反映 动作 。 为 了 解决 这 个 问题 ，HIRO 提出 使 用 重 标记 〈Re-lapel) 技术 来 纠正 高 层 转移 数 
据 。 旧 的 转移 数据 (Se ge 35 Rocco Si) 将 被 重新 标记 一 个 不 同 的 目标 o, 使 得 o. 能 最 大 化 
B! (Attol Settes dite) 概率 ， 其 中 Qe do 通过 目标 转移 函数 hh 计算 。 对 于 随机 行为 策略 ， 其 对 
数 概率 log p (Art+elStt+e ic) 可 以 通 如 下 方式 计算 : 




































































































































































t 十 c 一 工 
1 . 
log u (Accce|Staes Gt:tte) x 2 XO Ae = p (Si, ill + const. (10.22) 
Esi 

















在 实践 中 , HIRO 从 一 个 包括 原始 目标 的 目标 候选 集中 选择 能 最 大 化 对 数 概率 的 目标 。 该 目标 
应 Sipe Si 的 差 , 并 来 自 一 个 对 角 高 斯 分 布 的 采样 。 分 布 中 每 个 平均 项 随机 对 应 向 量 Sepe — S, 
的 元 素 ， 其 中 减 号 表示 一 个 元 素 运算 符 。 

HIRO 的 结构 如 图 10.5 所 示 。Nachum 等 人 (Nachum et al., 2018) 在 文献 (Duan et al., 2016) 中 
通过 4 个 挑战 性 的 任务 验证 了 HIRO。 实 验 表 明 ， 离 线 策略 修正 具有 显著 的 优势 ， 并 且 对 低层 控 
制 器 的 重 标记 可 以 对 初始 训练 进行 加 速 。 
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| p: 使 用 目标 重 标记 进行 离线 策略 训练 | 


| h h h | 


go —> 91 一 人 — gc 9c 


| d | | 


Pe ee) | 




















S 
i s | 
r 











图 105 HIRO 的 结构 ， 改 编 自 文献 (Nachum et al, 2018)。 低 层 策略 接收 高 层 目标 ， 并 直接 与 环境 
交互 。 其 中 目标 是 由 高 层 策略 或 者 目标 转移 函数 产生 的 


10.4 其 他 工作 


在 本 节 中 ， 我 们 对 近年 来 HRL 方面 的 工作 进行 了 简要 的 总 结 。 图 10.6 显示 了 两 个 视角 。 先 
从 低层 策略 奖励 信号 这 个 视角 看 ， 通 和 常 有 两 种 观点 ， 第 一 种 观点 是 提出 直接 用 端 到 端的 通过 环 
并 学 习 低 层 策略 ， 例 如 前 文 介 绍 的 STRAW (Vezhnevets et al., 2016) 和 选项 -批判 者 结构 (Bacon 
et al., 2017)。 第 二 种 观点 认为 通过 辅助 奖励 进行 学 习 可 以 获得 更 好 的 分 层 效 果 ， 例 如 前 文 提 到 过 
的 FuN (Vezhnevets et al., 2017) 和 HIRO (Nachum et al., 2018). 







































































































































































状态 抽象 
高 阶 抽象 目标 | 时 域 抽象 
状态 空间 分 解 
从 环境 中 学 习 


低 阶 策略 奖励 信号 
借助 辅助 奖励 


10.6 HRL 算法 的 两 个 视角 











器 















































一 般 来 说 ， 第 一 种 观点 可 以 从 端 到 端 学 习 中 获得 更 为 有 效 的 效果 。 这 个 分 支 下 的 主要 工作 聚 
焦 在 选项 上 。 对 于 选项 的 发 现 方法 ，STRAW (Vezhnevets et al., 2016) 和 选项 -评判 者 结构 (Bacon 
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et al., 2017) 都 可 以 被 视 为 自 上 而 下 的 方法 ， 这 种 方法 先 通过 探索 获得 一 些 奖励 信号 ， 随 后 对 动作 


进行 拆 解 , 从 而 组 成 选项 。 与 之 
该 方法 使 用 了 在 一 个 Laplacian 图 框 






































HERZ. (Proto-Value Func 












































CHK (Machado et al., 2017) 介绍 了 一 种 自 下 而 上 的 方法 ， 


tions, PVFs) 来 对 环境 进 





行 表示 学 习 ， 为 任务 无 关 的 选项 提供 了 理论 基础 。 文 献 (Riemer et al., 2018) 扩展 了 选项 -批判 者 结 
构 ， 并 得 出 了 一 个 深度 分 层 选项 的 策略 梯度 定理 。 实 验 结果 表明 , 分 层 选 项 -批判 者 在 离散 和 连续 
的 环境 中 都 十 分 有 效 。 文 献 (Harutyunyan et al., 2018) 仿照 离线 策略 学 习 中 的 做 法 ， 将 终止 条 件 解 









































耦 为 行为 终止 和 目标 终止 。 该 方法 在 文 ! 



























































的 实验 里 表现 出 了 更 快 的 收敛 速度 。 文 献 (Sharma et al., 


2017) 受到 SMDP 视角 下 的 选项 的 启发 ， 提 出 了 细 粒 度 动 作 重复 (Fine Grained Action Repetition, 
FiGAR)。 它 能 通过 学 习 来 预测 选择 出 的 动作 要 被 重复 执行 的 时 间 步 数 。 
此 外 ， 另 外 一 种 直观 的 方法 是 将 元 学 习 与 这 种 端 到 端的 方法 结合 起 来 形成 一 个 层次 结构 。 文 























的 基础 策略 ， 并 在 3D 








性 ， 如 何 将 该 方法 扩展 到 


et al., 2018). 





























HR (Frans et al., 2017) 开发 了 一 个 能 提升 未 知人 
































E 务 采样 效率 的 元 学 习 算法 ,该 算法 共享 了 分 层 结构 























[器 人 上 取得 了 显赫 的 成 果 。 然 而 ， 由 了 












































第 二 种 观点 是 使 用 辅 








为 低层 策略 建立 了 目标 导向 的 内 在 奖励 。 有 六 















































F 对 最 终 任 务 具 有 唯一 依赖 
复杂 领域 仍然 是 一 个 问题 (Bacon et al., 2017; Frans et al., 2017; Nachum 














励 。FuN (Vezhnevets et al., 2017) 和 HIRO (Nachum et al., 2018) 都 
F 多 其 他 的 工作 聚焦 于 能 在 一 系列 领域 上 有 效 的 目标 


导向 奖励 。 通 用 价值 函数 逼近 器 〈Universal Value Function Approximators, UVFAs) (Schaul et al., 


2015) 在 目标 上 泛 化 价值 函数 。 文 献 (Levy et al., 2018) it 




















步 引 入 了 后 见 之 明 目 标 转移 ， 扩 展 了 





后 见 之 明 经 验 回放 (Hindsight Experience Replay, HER) (Andrychowicz et al., 2017) 的 思想 ， 并 取 















































层 动作 价值 函数 。 其 
定 的 子 目标 。 

















另外 也 可 以 利用 领域 知识 来 构建 好 



































任务 的 结构 ， 它 会 先 在 相关 简 
的 世界 》 游 戏 领域 的 终生 学 习 
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经 网 络 结构 ， 它 通过 预 训练 的 技能 来 学 习 高 层 策略 ， 需 要 最 少 的 下 游 任 














务 领域 知识 ， 并 可 以 很 好 


















































很 难 简单 地 将 任务 扩展 到 














我 们 也 可 以 从 抽象 目标 
虑 状态 抽象 。HIRO 可 以 被 认为 
目标 转移 函数 模型 的 时 间 





























的 视角 来 理解 HRL 5235. Ye 





得 了 显著 的 稳定 性 。 文 献 Kulkarni et al., 2016) 介绍 了 h-DQN 算法 ， 它 学 习 不 同时 间 尺 度 下 的 分 
顶层 的 动作 价值 函数 学 习 选 项 策略 ， 低 层 的 动作 价值 函数 学 习 如 何 达 到 给 






































甫 助 奖励 。 文 献 (Heess et al., 2016) 介绍 了 一 个 用 于 移动 
了 预 训练 。 文 献 (Tessler et al., 2017) 提出 了 应 用 在 《我 
系统 。 它 会 有 选择 地 将 学 到 的 技能 转移 到 新 任务 上 。 文 献 (Florensa 





























能 的 可 迁移 性 。 然 而 ， 无 论 是 目标 导向 奖励 和 手工 奖励 都 
领域 ， 比 如 像素 级 观测 的 领域 。 



































| 象 又 考虑 了 时 域 抽象 。] 



































与 选项 框架 相 比 ， 文 献 





匡 架 通常 学 习 时 域 抽 象 ， 而 FuN 则 考 























其 目标 提供 了 状态 方向 和 
(Haarnoja et al., 2018) 使 























用 了 图 模型 来 实现 另 一 个 分 层 思想 。 
当前 的 任务 。 这 会 使 上 层 的 工作 更 为 简 自 





















































提供 了 一 个 利用 注意 力 机 制 对 状态 空间 
在 状态 空间 增加 了 一 个 视觉 沪 
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， 若 当前 任务 没有 完全 成 功 ， 则 每 一 层 解决 自己 
f. 在 状态 抽象 和 时 域 抽象 之 外 ， 文 献 (Mnih et al., 2014) 
进行 分 解 的 方法 。 更 准确 地 说 ， 这 项 工作 在 选择 动作 前 ， 














捉 。 此 处 的 注意 力 完成 了 在 状态 空间 上 的 高 层 规划 (Sahni 
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et al., 2017; Schulman, 2016)。 对 于 选择 抽象 对 象 ， 其 核心 是 回答 高 层 策略 如 何 指导 低层 策略 的 问 
题 。 对 于 有 足够 先 验 知识 的 领域 ， 通 过 元 学 习 进 行 技能 组 合 学 习 的 方式 可 以 取得 更 好 的 效果 。 对 
于 长 期 规划 ， 顶 层 的 时 域 抽 象 是 十 分 必要 的 。 
我 们 可 以 看 出 ，HRL 仍然 是 强化 学 习 的 一 个 高 级 课题 , 还 有 许多 问题 需要 解决 。 回 想起 HRL 
的 动机 是 通过 分 层 抽象 来 提高 采样 效率 和 通过 重用 学 到 的 技巧 来 处 理 大 时 间 跨 度 的 问题 。 实 验 结 
果 表 明 ， 分 层 架 构 带 来 了 一 些 效果 提升 ， 但 并 没有 足够 的 证 据 表 明 ， 它 是 确实 实现 了 分 层 抽象 ， 
或 者 只 是 进行 了 更 有 效 的 探索 (Nachum et al., 2018)。 未 来 ， 在 概率 规划 、 相 关 理论 研究 ， 以 及 在 
其 他 强化 学 习 领 域 进行 分 层 等 方向 上 ， 可 能 会 带 来 新 的 突破 。 
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多 智能 体 强化 学 习 
















































































多 种 场景 下 智能 体 之 间 合 作 与 竞 妇 
型 的 交互 场景 。 通过 对 博弈 架构 中 每 一 部 分 优化 和 均衡 的 分 忆 

















化 学 习 策 略 将 得 到 指引 和 进一步 


11.1 简介 





探索 。 


的 关系 ， 以 及 一 般 性 的 博弈 


在 强化 学 习 中 ， 复 杂 的 应 用 需要 多 个 智能 体 的 介入 来 同时 
能 体 数 目的 增加 会 对 管理 其 之 间 的 交互 带 来 挑战 。 根 据 每 个 智能 体 的 优化 问题 ,均衡 的 概念 被 提 
出 并 用 于 规范 多 智能 体 的 分 布 式 动作 。 结 合 典型 的 多 智能 体 强化 学 习 算 法 ， 我 们 进一步 分 析 了 在 


Ed 


学 习 并 处 理 不 同 的 任务 。 然 而 ， 智 
























































架构 如 何 用 于 建 模 多 智能 体 多 种 类 











「， 每 一 个 智能 体 最 优 的 多 智能 体 强 

















基于 规则 和 环境 反馈 ， 一 个 


























工 智能 中 有 很 多 应 用 具有 大 规模 






































的 动作 ， 而 且 我 们 希望 有 多 个 智能 体 可 以 通过 有 限 的 通信 共同 
































在 多 个 智能 体 的 情况 下 为 每 一 个 

















智能 体制 定 






































智能 体 可 以 通过 强化 学 习 学 到 动作 策略 并 且 表 现 优异 。 然 而 ， 人 
的 环境 背景 和 复杂 的 学 习 任务 ， 这 不 仅 要 求 一 个 智能 体 做 出 明智 














做 出 明智 的 决策 。 因 此 ， 我 们 需要 














了 效 的 强化 学 习 策略 。 考 虑 到 多 个 智能 体 之 间 的 相互 








交流 和 影响 ， 多 智能 体 强 化 学 习 的 概念 被 提出 并 受到 广泛 的 关注 和 探索 。 




















为 了 方便 分 析 和 理解 ， 在 多 
































略 和 效用 函数 。 




















智能 体 强 化 学 习 中 ， 我 们 列 出 三 个 基本 元 素 ， 分 别 是 智能 体 、 策 




















。 智 能 体 : 智能 体 是 一 群 具有 自主 决策 意识 的 个 体 ， 它 们 ! 



































进行 交互 。 为 了 能 使 自己 获得 最 
r4 























体 动 作 的 观察 、 学 习 并 制定 自 
体 同时 存在 。 智 能 体 的 数目 为 1 时 即 普通 强化 学 习 的 场景 。 



































每 一 个 个 体 都 可 以 独立 地 和 环 
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大 的 收益 和 最 小 的 损失 ， 每 一 个 智能 体会 基于 对 其 他 














的 动作 策略 。 在 本 章 我 们 要 考虑 的 情况 中 ， 会 有 多 个 
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。 策 略 : 在 多 智能 体 强 化 学 习 中 ， 每 一 个 智能 体会 制定 策略 来 最 大 化 自身 的 收益 并 且 最 小 化 
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损失 。 其 制定 的 策略 基于 智能 体 对 环境 的 感知 ， 并 且 会 被 其 他 智能 体 的 策略 影响 。 
效用 函数 : 考虑 到 每 个 智能 体 自身 的 需求 和 对 环境 及 其 他 智能 体 的 依赖 关系 ， 每 一 个 智能 
体 都 会 有 独自 的 效用 函数 。 一 般 来 说 ， 效 用 函数 定义 为 智能 体 在 实现 各 种 目标 时 获得 的 总 
收益 和 总 成 本 之 差 。 在 多 智能 体 的 场景 下 ， 在 对 周围 环境 和 其 他 智能 体 的 学 习 过 程 中 ， 每 
一 个 智能 体会 以 最 大 化 自身 的 效用 函数 为 最 终 目标 。 
在 多 智能 体 强化 学 习 中 , 每 一 个 智能 体会 有 自身 的 效用 函数 , 并 以 最 大 化 其 效用 价值 为 目标 ， 
基于 对 环境 的 观察 和 交互 自主 地 学 习 并 制定 策略 。 由 于 每 一 个 智能 体 在 自主 学 习 时 不 会 考虑 到 其 
策略 对 其 他 智能 体 效用 函数 的 影响 ， 因 此 ， 在 多 个 智能 体 相互 交互 影响 下 会 存在 竞争 或 合作 的 情 
况 。 考 虑 到 智能 体 之 间 相 互 交 互 的 多 种 复杂 情况 ， 博 奔 论 普遍 被 用 来 对 智能 体 的 决策 进行 具体 分 
Nt (Fudenberg et al., 1991)。 针 对 不 同 的 多 智能 体 强化 学 习 的 场景 ， 可 以 采用 不 同 的 博弈 框架 来 模 
拟 交 互 的 场景 ， 整 体 上 可 以 分 为 如 下 三 种 类 别 。 
。 静态 博弈 : 静态 博弈 是 模拟 智能 体 间 交 互 的 最 基本 形式 。 在 静态 博弈 中 ， 所 有 智能 体 同 时 做 
出 决策 ， 并 且 每 一 个 智能 体 只 做 出 一 个 决策 动作 。 由 于 每 个 智能 体 只 行动 一 次 ， 所 以 其 可 
以 做 出 一 些 出 乎 常规 的 欺骗 和 背叛 策略 来 使 自己 在 博弈 中 获 益 。 因 此 ， 在 静态 博弈 中 ， 每 
一 个 智能 体 在 制定 策略 时 需要 考虑 并 防范 其 他 智能 体 的 欺骗 和 背叛 来 降低 自身 的 损失 。 
重复 博弈 : 重复 博弈 是 多 个 智能 体 在 相同 的 状态 下 采取 重复 多 次 的 决策 动作 。 因 此 ， 每 个 
智能 体 的 总 效益 函数 是 其 在 每 次 决策 动作 所 带 来 的 效益 价值 的 总 和 。 由 于 所 有 智能 体会 做 
出 多 次 动作 ， 当 某 个 智能 体 在 某 一 次 动作 时 采取 了 坎 骗 或 背叛 的 决策 时 ， 在 未 来 的 动作 中 ， 
该 智能 体 可 能 会 收 到 其 他 智能 体 的 惩罚 和 报复 。 因 此 ， 相 比 于 静态 博弈 ， 重 复 博 弈 大 大 地 
避免 了 多 智能 体 之 间 恶 意 的 动作 决策 ， 从 而 整体 上 提高 了 所 有 智能 体 总 效益 价值 之 和 。 
随机 博弈 : 随机 博弈 〈 或 马尔 可 夫 博 弈 ) 可 以 看 作 是 一 个 马尔 可 夫 过 程 ， 其 中 存在 多 个 智能 
体 在 多 个 状态 下 多 次 做 出 动作 决策 。 随 机 博 奔 模拟 出 了 多 个 智能 体 做 多 次 诀 策 的 一 般 情 况 ， 
每 个 智能 体会 根据 自身 所 处 的 状态 ， 通 过 对 环境 的 观察 和 对 其 他 智能 体 动作 的 预测 ， 做 出 
提升 自身 效用 函数 的 最 佳 动作 决策 。 
在 本 章 中 ， 在 单 智能 体 强 化 学 习 的 基础 上 ， 我 们 更 多 地 关注 智能 体 之 间 的 交互 和 关联 ， 寻 求 
在 多 智能 体 强化 学 习 中 所 有 智能 体 之 间 达 到 均衡 状态 ， 并 且 每 个 智能 体 都 能 获得 相对 较 高 和 稳定 
的 效用 函数 。 
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11.2 ”优化 和 均衡 


由 于 每 个 智能 体 以 提高 自身 的 效用 函数 为 目标 ， 多 智能 体 强化 学 习 可 以 看 成 一 个 求解 多 个 优 
化 问题 的 数学 问题 ,其 中 每 个 智能 体 对 应 一 个 优化 问题 。 为 了 分 析 智 能 体 之 间 的 关系 , 设 有 m 个 
RAEI, H X = Xx Xx ,XX 表示 所 有 智能 体 的 决策 空间 ， 用 u = (u(x), ,um(z)) 
表示 所 有 智能 体 在 采取 决策 z, c c X 时 的 效用 空间 。 因 此 ， 每 个 智能 体 i Vi © {1,2,---,m}, 
需要 在 和 其 他 智能 体 的 交互 情况 下 ， 最 大 化 其 自身 的 效用 函数 。 在 多 智能 体 强 化 学 习 下 ， 一 般 来 
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说 ， 就 是 同时 或 者 顺序 求解 多 个 优化 问题 ， 来 保证 每 个 智能 体 都 能 获得 最 优 的 效用 函数 。 

习 为 每 个 智能 体 的 收益 函数 和 所 有 智能 体 的 决策 动作 相关 ， 在 求解 多 智能 体 的 优化 问题 中 ， 
我 们 希望 所 有 智能 体 最 终 都 能 有 稳定 的 决策 策略 ， 在 其 状态 下 ， 每 一 个 智能 体 都 不 能 通过 只 改变 
自身 的 决策 策略 而 使 自己 获得 更 高 的 收益 。 因 而 ， 在 多 智能 体 强 化 学 习 中 ， 我 们 提出 了 均衡 的 概 
念 。 为 了 更 好 地 理解 和 分 析 ， 在 不 失 一 般 性 的 前 提 下 ， 我 们 通过 胆小鬼 博弈 〈Chicken Dare Game, 
或 被 称 为 斗鸡 博弈 ) 及 其 延伸 来 介绍 多 种 均衡 概念 。 经 典 的 胆小鬼 博 蛮 是 一 种 静态 博弈 模型 ， 其 
中 涉及 两 个 智能 体 之 间 的 交互 关系 。 两 个 智能 体 可 以 相互 独立 地 选择 愤 情 《简称 为 “C”) Bed B 
K GERA DO 作为 自身 的 动作 决策 。 基 于 两 个 智能 体 所 有 可 能 的 动作 诀 策 ， 两 个 智能 体 获 得 
的 效用 价值 由 图 11.1 所 示 。 当 两 个 智能 体 选择 “D” 即 勇敢 时 ， 两 者 各 自 都 会 获得 最 低 的 效用 价 
值 0; 当 其 中 一 个 智能 体 选 择 “D” 即 勇敢 ， 另 一 个 智能 体 选 择 “C” 即 性 惨 时 ， 选 择 勇 敢 的 智能 
体 获 得 其 最 佳 的 效用 价值 6， 选 择 层 恨 的 智能 体 获 得 相对 较 低 的 效用 价值 3。 当 两 个 智能 体 都 选 
择 “C” 即 层 情 时 ， 两 者 都 会 获得 相对 较 高 的 收益 5。 
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图 11.41 胆小鬼 博弈 











11.2.1 ”纳什 均衡 


根据 图 11.1 所 示 的 胆小鬼 博弈 (Rapoport et al., 1966) 的 场景 ， 我 们 设 定 规则 要 求 两 个 智能 
同时 做 出 决策 。 因 而 ， 当 两 个 智能 体 同 时 选择 “C” 时 ， 假 设 对 方 在 保持 当前 决策 动作 ， 每 个 智 
能 体 都 想 要 选择 “D” 而 使 自己 获得 更 高 的 效用 价值 。 当 两 个 智能 体 同时 选择 “D” 时 ,两 者 都 只 
能 获得 最 低 的 效用 价值 0， 因 而 希望 改变 策略 “D” 而 获得 更 高 的 收益 。 然 而 ， 当 一 个 智能 体 选 
择 “C”， 而 另 一 个 智能 体 选择 “D” 时 ， 在 假设 对 方 不 会 改变 当前 决策 动作 的 前 提 下 ， 两 个 智能 
体 都 不 能 只 单独 改变 自己 的 决策 而 提高 自己 的 效用 价值 。 因 此 ， 我 们 称 一 个 智能 体 选择 “C” 而 
智能 体 选择 “D” 这 种 情况 在 当前 场景 下 达到 了 纳什 均衡 (Nash et al., 1950)， 其 定义 如 下 : 
定义 11.1 A(X, u) 表示 m 个 智能 体 下 的 静态 场景 ， 其 中 针 =X x Xx,… ,XXn 表示 智能 体 
的 策略 空间 。 当 所 有 智能 体 采 取 策 略 Tz， 其 中 必 EE 时，w = (wlx), uas) 表示 智能 体 的 
效用 空间 。 我 们 同时 设 zi 为 智能 体 i 的 策略 ， 设 m 为 除 智能 体 ; 外 其 他 所 有 智能 体 的 策略 集 
合 。 当 Vi, zi € Xb; 时 ， 
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u(x}, ež) 2 ulti m ,). (11.1) 
策略 z* E 交 使 当前 场景 达到 纳什 均衡 。 
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纯 策略 纳什 均衡 


根据 定义 所 示 ， 在 多 
其 他 智能 体 的 坟 











一 定 存 在 ， 因 为 智能 体 的 弓 


价值 。 


























混合 策略 纳什 均衡 





在 纯 决 策动 作 之 外 ， 每 个 智能 体 还 
随机 选择 不 同 的 决策 动作 。 因 而 ， 





确定 性 ， 并 可 以 考虑 2 
来 说 ， 混 合 策 














相对 应 地 ， 其 采取 勇敢 的 概率 是 1 — po 
动作 有 偏见 ， 从 而 使 智能 体 2 产生 最 佳 



























































策动 作 不 改变 的 前 提 下 ,每 个 
收益 ， 我 们 称 所 有 的 智能 体 达 到 纪 
衡 ， 其 





















































体 强 化 学 习 的 静态 场景 下 ， 所 有 智能 体 同 时 采取 一 次 决策 动作 。 在 
E 体 不 能 通过 改变 当前 的 六 
E 策 略 纳什 均衡 。 寿 
中 一 个 智能 体 选择 层 展 动作 ， 男 一 个 智能 体 选择 勇敢 动作 。 











策动 作 而 获得 更 高 的 
认 的 例子 中 存在 两 个 纯 策略 纳什 均 
一 般 来 说 ， 纯 策略 纳什 均衡 不 















































策略 动作 不 能 保证 其 通过 改变 当前 的 动作 来 志 








得 更 高 的 效用 
















































































并 根据 策略 基于 不 同 的 概率 
可 以 在 其 相互 交互 的 过 程 中 带 来 随机 性 和 不 可 





E 体 的 策略 调整 改变 
存在 。 以 胆小鬼 博弈 为 例子 ， 我 们 设 
E 智 能 体 1 策略 的 
































略 纳什 均衡 总 























咯 组 合 而 达到 混合 策略 纳什 均衡 。 一 般 
体 1 OSEE RO BERE p» 
手 智能 体 2 的 


























策略 动作 ， 需 要 满足 如 下 关系 : 


5p + 3(1 — p) = 6p + 0(1 — p). 








(11.2) 


我 们 得 到 p = 0.75。 从 智能 体 2 的 角度 来 说 ， 依 此 类 推 ， 即 当 两 个 智能 体 选 择 “C” 的 概率 


均 为 0.75， 并 且 选 择 "D" 的 概率 为 0.25 时 ， 两 个 智能 体 达 到 了 
体 获得 
综 上 所 述 , 我 们 将 











轴 表 示 














的 期 望 效益 价 





























11.2.2 ”关联 性 均衡 
在 胆小鬼 博弈 的 纳什 均衡 中 ， 两 个 智能 体 总 效益 之 和 为 9， 小 于 所 有 两 个 智能 体 总 效益 之 和 
的 最 大 可 能 值 10。 然 而 ， 两 个 智能 体 需 要 都 选择 策略 “C” 使 
此 ， 为 了 更 好 地 提高 所 有 智能 体 的 总 效益 价值 # 





式 的 方式 下 是 不 稳定 的 。 
能 够 拥有 稳定 的 收益 ， 关 联 性 均衡 被 进一步 提出 。 
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的 情况 。 
B 和 点 C 为 纯 策 
有 纳什 均衡 的 结果 ， 两 个 智能 体 效 月 


选择 “C” 的 情况 ， 点 B3 
示 智 能 体 1 采用 动作 “D” 智 能 体 2 RH 
寻 此 ， 两 个 智能 体 采取 所 有 
咯 纳 什 均衡 的 结 




































































胆小鬼 博弈 的 结果 用 
:于 图 11.1 表示 的 智能 体 之 间 的 关系 ， 












































智能 体 2 的 效用 


























策略 纳什 均衡 ， 其 中 每 个 智能 














表示 智能 体 1 的 效用 函数 , Y 















































点 A 对 应 两 个 智能 体 同 时 




















j 动 作 “C” 智 能 体 2 采 



































IZME “D” HAR, AOR 
E “C KWER, A D 对 应 两 个 智能 体 同时 选择 “D” 






























































































































































É ABDC 区 域 中 ， 其 中 点 
点 五 即 为 混合 策略 纳什 均衡 的 结果 。 对 于 所 
月 函数 之 和 相同 ， 等 于 9. 


























10， 在 绝对 分 布 
保证 每 个 智能 体 




















11.2 


优化 和 均衡 





0 3 5 6 
图 112 ”胆小鬼 博弈 中 的 纳什 均衡 























在 胆小鬼 博弈 的 例子 中 ， 我 们 设 定 两 个 智能 体 选 择 “CC” (第 一 个 “C” 对 应 智能 体 1 的 决 





























策动 作 ， 第 二 个 “C” 对 应 智能 体 2 的 决策 动作 ),“CD”“DC” 和 “DD” 的 可 能 性 为 vw。 当 两 个 
智能 体 相关 联 并 且 设 定 每 种 情况 的 可 能 性 为 v = [1/3,1/3,1/3,0] 时 ， 两 个 智能 体 的 总 效用 价值 





























为 9.3333， 比 纳什 均衡 的 结果 要 高 。 不 仅 如 此 , 假设 当 智 能 体 1 宣布 将 选择 “C” 时 ， 






































为 了 满足 每 





种 情况 的 可 能 性 保持 为 w， 其 对 手 智能 体 2 需要 采取 混合 策略 ， 其 选择 “C” 和 “D?” 的 可 能 性 分 























别 均 为 0.5。 那 么 当 智 能 体 1 真实 选择 “C” 的 时 候 ， 能 获得 的 效益 价值 为 0.5 x 5 十 






































0.5x3=4。 


但 如 果 智 能 体 1 私自 改变 了 决策 动作 “D”， 在 智能 体 2 策略 不 发 生 改 变 的 情况 下 ， 智 能 体 1 能 够 





























收 到 的 效益 价值 为 0.5 x 6 十 0.5 x 0==3， 低 于 选择 “C” 情 况 下 的 效益 价值 4。 相对 应 地 ， 当 吞 
需要 以 100% 






































能 体 1 宣布 将 选择 “D” 时 ,为 了 满足 每 种 情况 的 可 能 性 保持 为 wv， 其 对 手 智能 体 2 












































的 概率 做 出 决策 动作 “C” 那么 智能 体 1 依然 不 能 将 宣布 的 动作 私自 改变 到 “C” 而 获得 更 高 的 
































效用 价值 。 因 此 ， 其 相关 联 的 概率 分 布 v 让 两 个 智能 体 达 到 了 关联 性 均衡 ， 有 具体 定义 如 下 : 












































定义 11.2 关联 性 均衡 (Aumann, 1987) 定义 为 智能 体 之 间 能 够 相关 联 实现 概率 分 布 v， 并 且 满 足 


如 下 关系 


NO v(a}, a_,)[ui (wt, mi) — ui(ai, e)] 2 0, Vv; € X, 
w_i~EX_; 


其 中 Xi 表示 智能 体 i REE, Xi 表示 除 智能 体 i 外 所 有 其 他 智能 体 的 策略 空 





> 


此 ， 在 假设 两 个 智能 体 服 从 相关 联 分 布 的 前 提 下 ， 每 个 智能 体 不 能 改变 当前 

















(11.3) 


间 。 


日 关联 的 策略 

















而 获得 更 高 的 效用 价值 。 为 了 更 直观 地 表现 出 关联 性 均衡 的 优势 ， 我 们 在 图 11.3 : 





HA F ENE 





















































出 本 例 中 关联 性 均衡 的 结果 。 一 般 来 说 ， 在 图 中 4BC 区 域 中 ， 只 要 满足 公式 (11.3) 
其 结果 均 可 达到 关联 性 均衡 。 
























































所 示 的 关系 ， 
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0 3 5 6 
图 113 ”胆小鬼 博弈 中 的 关联 性 均衡 

















11.2.3 斯 塔 克 尔 伯 格 博弈 














除了 同时 做 出 决策 的 情况 ， 智 能 体 之 间 还 可 能 会 顺序 做 出 决策 。 在 顺序 做 出 决策 的 情况 下 ， 
智能 体会 分 别 被 定义 为 领导 者 和 追随 者 ， 其 中 领导 者 会 先 做 出 决策 ， 和 追随 者 随后 做 出 决策 (Bjorn 
et al., 1985)。 因 而 ， 领 导 者 在 决策 时 会 有 先 发 优势 (First-Mover Advantage)， 可 以 通过 预测 追随 
者 对 其 决策 的 反应 来 决定 能 够 给 自身 带 来 最 大 收益 的 最 佳 决策 。 在 胆小鬼 博弈 的 例子 中 ， 如 果 我 
们 扩展 场景 使 两 个 智能 体 的 决策 是 顺序 决定 的 ， 并 令 智 能 体 1 为 领导 者 ， 智 能 体 2 为 追随 者 ， 那 
么 智能 体 1 会 选择 策略 动作 “D” 因为 智能 体 1 可 以 预测 到 ， 当 其 选择 “D” 时 ， 为 了 获得 更 高 
的 收益 ， 智 能 体 2 一 定 会 选择 动作 “C”， 从 而 使 自己 的 效用 价值 为 所 有 可 能 结果 中 的 最 大 值 6， 
并 且 在 顺序 执行 的 前 提 假 设 下 ， 两 个 智能 体能 够 达到 斯 塔 克 尔 伯 格 均衡 。 斯 塔 克 尔 伯 格 均衡 的 定 
义 如 下 : 





























































































































































































































































































































定义 11.3 设 ((X, IT), (9, f)) 为 顺序 执行 的 场景 ， 其 中 有 m 个 领导 者 同时 先 做 出 策略 动作 ,nn 
个 追随 者 同时 后 做 出 策略 动作 。X = XxX bx,… XX, Fe TW = M x Mx,- ,XI 2 5] 
表示 领导 者 和 追随 者 的 策略 空间 ，g = (gi1(2),… ,gm(z)) 为 领导 者 zx c X 的 效用 部 数 。f = 
(有 (7),… ,f(T)) Pie MA m € II 8938 BK. Ra; 为 领导 者 i 的 决策 策略 ，z_;i 为 除 领导 者 
i 外 其 他 领导 者 的 决策 策略 集合 。 同 样 地 ， 设 Tri 为 追随 者 j 的 决策 策略 ，A_; 为 除 追 随 者 了 外 其 
他 追随 者 的 决策 策略 集合 。 那 么 对 于 Vi, Vj zi € X;,n; € j, RBRS a* € X, n* € II TURK 
到 多 领导 者 多 追随 者 的 斯 塔 克 尔 伯 格 均衡 ， 并 且 满 足 如 下 关系 : 


gilti, 25, m^) 2 gi(Ti, £—i, T“), (11.4) 
md j) 2 f(a, mj, m* ,). (11.5) 
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11.3 ”竞争 与 合作 

在 上 一 节 中 ， 我 们 以 胆小鬼 博弈 为 例子 介绍 了 多 智能 体 强化 学 习 中 优化 和 均衡 的 概念 。 除 此 
之 外 ， 在 不 同 的 应 用 中 ， 多 智能 体 之 间 的 关系 会 多 种 多 样 ， 在 本 节 ， 我 们 会 更 多 分 析 在 分 布 式 的 
场景 下 ， 多 智能 体 之 间 竞 争 和 合作 的 关系 。 在 没有 特殊 说 明 的 情况 下 ， 我 们 设 所 考虑 的 场景 中 存 
E m 个 智能 体 , A = Ay x Xox,… ,xm 表示 所 有 智能 体 的 策略 空间 , u = (ua(Z)…… ,Um(2)) 
表示 所 有 智能 体 在 采用 策略 集合 x 的 情况 下 的 效用 集合 ， 其 中 z < XX。 












































































































































11.3.1 合作 















































































































































当 多 个 智能 体 相 互 合作 的 时 候 ， 一 般 来 说 ， 所 有 智能 体 的 效用 价值 之 和 会 期 望 高 于 不 合作 的 
情况 下 的 效用 价值 之 和 ， 并 且 在 分 布 式 的 场景 下 ， 每 个 智能 体会 更 多 地 考虑 自身 的 效用 价值 。 因 
此 ， 为 了 使 智能 体能 够 加 入 合作 联盟 ， 每 个 智能 体 自 身 需 要 在 合作 的 情况 下 获得 比 不 在 合作 的 时 
候 更 高 的 效用 价值 。 因 而 ， 其 对 智能 体 i, Vi e {1,2,--- m) 的 优化 问题 可 以 归纳 为 

k=m 
max ux (xy a), 
Ti hel 
s.t. u;(z; |o ;) > ui(a;|x*,), (11.6) 
11.3.2 EMF 


























零 和 博弈 (VINCENT, 1974) 在 许多 应 用 
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E: 
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Ali, ERRERA EA P BAUM K 
是 为 零 。 在 一 般 性 的 零 和 博弈 中 ,每 
4 其 他 智能 体 的 动作 预测 最 大 化 其 自身 的 效用 价值 并 且 最 小 化 其 他 智能 体 的 
而 ， 其 对 智能 体 i, Vi © (1,2,--- m) 优化 问题 可 以 总 结 如 下 


wy =A 
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max min u;. 
Xj dw. 


(11.7) 
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基于 此 优化 问题 ， 在 文献 (Littman, 1994) 对 一 个 简化 的 踢 足 球 问题 进行 分 析 并 建 模 为 零 和 博 
弈 。 在 足球 游戏 中 ， 存 在 两 个 智能 体 ， 每 个 智能 体 都 努力 地 把 球 踢 进来 提高 自身 的 效用 价值 并 且 
防守 对 方 智能 体 来 最 小 化 其 对 手 的 效用 价值 。 因 此 ， 在 该 问题 中 ， 对 于 智能 体 ?， 其 优化 问题 具 
体 表 示 为 










































































max min X` Q(s, ai, ai), (11.8) 


Qi 




















其 中 m; 表示 智能 体 i 的 策略 ，ai 代表 智能 体 基 于 策略 m 实际 的 动作 。 在 足球 游戏 中 ， 智 能 体 i 
努力 提高 自己 的 价值 函数 ， 然 而 其 对 手 采 取 动 作 ai 努力 降低 该 价值 函数 。 





















































11.3.3 ”同时 决策 下 的 竞争 

除了 零 和 博弈 ， 一 般 来 说 ， 还 有 很 多 应 用 在 多 种 智能 体 同 时 做 出 决策 时 存在 竞争 的 关系 。 在 
同时 决策 下 的 竞争 ， 所 有 智能 体 需要 在 相同 的 时 间 下 同时 做 出 决策 动作 ， 因 而 其 优化 问题 可 以 总 
结 如 下 : 
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max ui(TilT i). (11.9) 






























































在 文献 (Hu et al., 1998) F, Q 学 习 被 提出 来 解决 一 般 情况 下 多 智能 体 之 间 的 竞争 问题 。 其 具 
体 算法 如 算法 11.35 所 示 ， 基 于 交互 过 程 中 经 历 的 积累 ， 每 个 智能 体 i 都 会 维护 一 个 Q 列表 ， 用 
于 指导 指定 策略 x;。 随 着 更 多 经 历 的 积累 ，Q 列表 更 新 方程 如 下 : 




































































Qi(s, aj, a .;) = (1 — o5)Qi(s, ai, a i) + ailri + "yni(s )Qi(s , a), a^. ; ym .i(s")]. (11.10) 


算法 11.35 多 智能 体 一 般 性 Q-learning 


设 定 Q 表格 : 初始 值 Qi(s, ai, a_i)= TE 1, Vi € (1 2, NA mj. 
for episode = 1 to M p 

设 定 初始 状态 s = 

for step = 1 toT m 



















































































$E i 基于 Ti(s) 选择 决策 行为 a; , 其 行为 是 根据 当前 Q 中 所 有 智能 体 混合 纳什 均 
Tt 
观测 经 验 (s, Qi, Qi fi) 并 将 其 用 于 更 新 QU 
更 新 状态 s= 8/ 
end for 
end for 




















在 多 智能 体 的 场景 下 ， 由 于 Q 列表 的 更 新 和 其 他 智能 体 r_; 的 策略 相关 ， 因 而 ， 智 能 体 ; i 
要 同时 建立 并 估计 所 有 其 他 智能 体 的 Q 列表 。 根 据 由 这 些 Q 列表 推导 出 对 其 他 智能 体 策略 m; 
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11.3 竞争 与 合作 
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9 衡 的 结果 。 
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算法 11.36 多 智能 体 深 度 确定 性 策略 梯度 

















能 体 i 才 可 以 更 好 制定 




















也 在 尝试 探索 在 多 智能 体 强化 学 习 中 的 应 用 。 





策略 ti， 以 使 所 有 智能 体 的 策略 集合 (m, m-i) 最 终 达 到 混合 

















本 的 Q 学 习 ， 其 他 深度 强化 学 习 的 方法 































































































体 深 度 确 定性 策略 梯度 (Deep Deterministic Policy Gradient, DDPG) 算法 , 多 智能 体 深 
E (Multi-Agent Deep Deterministic Policy Gradient, MADDPG) (Lowe et al., 2017) 
体 同 时 做 出 决策 的 场景 下 , 为 每 一 个 智能 体 提 供 策略 。MADDPG 算法 如 算法 11.36 所 
能 体 对 应 一 个 分 布 式 的 行动 者 (Actor), AH 

是 集中 控制 的 ， 并 整体 维护 一 个 和 所 有 智能 体 动作 集合 相关 的 Q 列表 。 











决策 提供 建议 。 另 一 方面 , 批判 者 Critic) 




















for episode = 1 to M do 
设 定 初始 状态 s = So 
for step = 1 to T do 





每 个 智能 体 ; 基于 当前 决策 策略 mo, 选择 决策 
同时 执行 所 有 智能 体 的 决策 行 
将 (s,a,r, 5") FEBS 























更 新 状态 s = s 


for 智能 体 i= 1 to m do 








为 a = (ay, a2, ,am ) 


















































end for 
end for 
end for 


从 回访 缓冲 区 A4 中 采样 批量 历史 经 验 数据 
对 于 行动 者 和 批判 者 网 络 ， 计 算 网 络 参数 梯度 并 根据 梯度 更 新 参数 

















特别 来 说 ， 对 于 每 个 行动 者 i， 其 期 














Vor J (mi) = ElVor mi(0i|07 )Va; QF (ol °° 


























Hl 


力作 满足 a; = zti(0i)。 




















回报 的 梯度 表示 为 





其 中 ， 设 01,… ,om 分 别 为 m 个 智能 体 的 观察 






































,am|0®))], (11.11) 

















PAS. m, 为 智能 体 i 的 确定 性 策略 ， 因 而 其 决策 





相对 应 地 ， 批 判 者 对 于 智能 体 ; 的 损失 函数 是 Q 值 的 TD-error， 表 示 为 


























Li = “(QF (01, - Om; 01,77 , am|) m -QT (0: 
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11.3.4 顺序 决策 下 的 竞争 
在 某 些 


























— 
= 
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IH 























2a. eg ))7], (112) 





9% 48 Q 预测 的 延迟 参数 ，r' 表示 在 延迟 参数 07 下 的 目标 








用 中 ， 不 同类 型 的 知 
中 ， 多 个 智能 体 之 间 可 能 会 顺序 做 









































RORIS 。 


R 策 时 会 有 时 间 先 后 之 分 。 因 而 ， 在 竞争 
决策 的 智能 体会 有 先 发 优 势 。 设 
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(X, I), (9, f)) 为 一 般 情况 下 m. 个 领导 者 和 n 个 追随 者 的 顺序 决策 场景 。 其 中 忆 = x, x 
Xx, ,XÆm 和 = TT, x Ix, , xn 分 别 表示 领导 者 和 追随 者 的 决策 策略 空间 。 设 
g = (g1(z),… ,gm(z)) 为 领导 者 m € X 的 效用 函数 ，f = (im) fa(m)) 为 追随 者 m < IT 
的 效用 函数 。 那 么 追随 者 j, Vj € (1,2,--- n) 的 优化 问题 可 以 表示 为 
























































max f;(a;|7_;, a). (11.13) 


领导 者 i, Vi e {1,2,… m) 的 优化 问题 为 





max g;(x;|a —.;, T), 


s.t. 7; = arg max f;(mj|m ;,2), Vj € {1,2, ,n}. (11.14) 


11.4. 博弈 分 析 架 构 


基于 对 多 智能 体 之 间 关 系 的 分 析 ， 我 们 总 结 出 一 个 满足 一 般 性 多 智能 体 博 弈 分 析 架 构 ， 如 
图 11.5 所 示 。 在 此 架构 中 ， 我 们 设 定 一 个 循环 沈 代 的 场景 ， 其 中 所 有 的 智能 体能 够 在 不 同时 间 
段 中 多 次 做 出 决策 。 在 同一 个 时 间 段 中 ， 我 们 将 所 有 智能 体 进一步 分 为 多 个 层级 ， 在 最 高 层级 的 
智能 体 先 做 出 动作 ， 基 于 对 高 层级 智能 体 动 作 的 观察 ， 低 层级 的 智能 体 相 对 应 地 做 出 利于 自身 的 
决策 ， 并 且 在 每 一 个 层级 中 ， 可 以 存在 多 个 智能 体 同 时 做 出 决策 。 因 而 ， 在 不 同 层 级 之 间 ， 所 有 
智能 体 期 望 达到 斯 塔 元 尔 伯 格 均衡 ， 如 果 多 个 智能 体 存 在 相同 层级 中 ， 根 据 这 些 智 能 体 可 和 否 相关 
联 ， 期 望 能 够 达到 纳什 均衡 或 者 关联 性 均衡 的 结果 而 使 所 有 智能 体 获得 稳定 效用 价值 。 

















































































































































































































































































































图 11.5 一般 性 多 智能 体 博弈 分 析 架 构 















































博弈 分 析 架 构 一 般 可 以 用 来 建 模 并 处 理 所 有 多 智能 体 强化 学 习 的 问题 。 为 了 更 好 地 测试 并 且 
评估 , 各 种 多 智能 体 强化 学 习 平 台 目 前 已 经 建立 并 广 受 关 注 。 比 如 AlphaStar 可 以 很 好 模拟 《星际 
争霸 》 游 戏 中 多 智能 体 之 间 的 关系 和 动作 。 多 智能 体 互联 自动 驾驶 (MACAD) 平台 (Palanisamy, 
2019) 很 好 地 学 习 并 且 模 拟 在 公路 上 驾驶 汽车 的 环境 场景 。 谷 歌 研究 足球 (Kurach et al., 2019) 则 是 
一 个 模拟 多 个 有 自主 意识 的 智能 体 一 起 踢 足 球 的 平台 等 等 。 基于 适用 于 多 种 不 同 场景 的 多 智能 体 
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并 行 计算 



































高 学 习 效 果 。 在 本 章 中 ， 我 
场景 ， 我 们 分 别 分 析 同 步 通 








基于 强化 学 习 低 采样 效率 的 问题 ， 并 行 计 算 作 为 解 六 








SY 























门将 具体 介绍 强化 学 习 ， 







































































算 方 式 。 通 过 并 行 计 算 ， 经 

















言 和 异步 通信 ， 并 详细 阅 


述 并 行 











们 将 总 结 一 般 性 的 分 布 式 计算 架构 的 基本 构成 和 组 成 元 素 。 


12. fait 











方案 可 以 高 效 地 加 速 模型 训练 过 程 并 提 
采用 并 行 计算 的 系统 架构 。 对 应 不 同 的 应 用 
计算 在 多 种 网 络 拓扑 结构 中 的 不 同 运 
的 分 布 式 强化 学 习 算法 和 架构 将 被 逐一 介绍 并 互相 比较 。 最 终 ， 我 

















在 深度 强化 学 习 ! 








例 ， 为 了 使 智能 体能 够 通过 学 习 在 Dota 游戏 中 做 出 明智 的 决策 ， 每 两 秒 钟 就 大 概 有 2 百 万 组 
不 仅 如 此 ， 从 优化 的 角度 ， 特 别 在 基于 策略 梯度 的 方法 中 ， 大 批量 的 训练 数 

















据 被 用 来 训练 模型 。 




















据 能 够 有 效 地 降低 结果 的 方差 。 然 而 ， 由 于 在 强化 学 习 中 ， 智 能 体 和 环境 的 交互 限制 














顺序 执行 ， 强 化 学 习 的 算法 














缓慢 的 收敛 速度 。 并 行 计算 ， 即 对 相互 分 离 独立 的 全 
带 来 有 效 的 解决 方案 。 一 般 来 说 ， 并 行 
。 计算 的 并 行 性 : 数据 计算 是 包括 特征 工程 、 



































在 采集 数据 上 往往 存在 低 效 率 的 








计算 中 
























































程 ， 是 由 每 一 个 计算 单元 具体 操作 执行 的 ， 不 同 的 操作 站 

活 地 结合 并 扩展 到 不 同 的 规模 。 在 同等 级 规模 的 任务 中 ， 计 算 的 忆 
类 策略 : 一 类 是 合并 多 个 计算 单元 共 

时 并 行 计算 多 个 任务 。 基 于 第 一 类 计算 策略 ， 


完成 任务 的 效率 会 先 上 升 ， 然 后 会 因为 一 些 瓶 颈 的 环节 而 逐渐 收敛 。 
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， 针 对 模型 的 训练 需要 大 量 数据 。 以 OpenAI Five (OpenAI et al., 2019) 为 


数 

















Je 





在 时 间 





问题 ， 从 而 带 来 不 理想 的 训练 结果 和 


E 务 以 同时 计算 的 方式 ， 为 解决 强化 学 习 问 题 





的 并 行 性 可 以 体 
模型 学 习 ， 以 及 结果 评估 等 任务 在 内 的 核心 过 
任务 的 大 小 和 种 类 灵 
IK] 

















现在 以 下 











两 个 方面 : 
























































元 可 以 根 提 
E REA 


EGE AME, FRE IE) 
































岗 取决 于 以 下 两 
多 个 计算 单元 同 



























































随 着 越 来 越 多 的 计算 








F-JUHH 











个 计算 任务 ， 











大 








而 在 深度 强化 学 习 











12.2 ”同步 和 异步 








中 ， 在 有 计算 资源 充足 的 前 提 下 ， 将 一 个 计算 任务 拆 分 成 多 个 相互 独立 的 子 任务 ， 并 且 将 
每 个 子 任务 分 配 适当 的 计算 资源 进行 并 行 计算 ， 是 寻求 计算 效率 提升 的 重要 方向 。 
。 数 据 传输 的 并 行 性 : 在 拥有 充足 的 计算 资源 时 ， 计 算 资 源 之 间 的 数据 传输 会 成 为 解决 问题 
效率 的 瓶颈 。 一 般 来 说 ， 为 了 避免 传输 的 过 多 元 余 ， 平 衡 网 络 中 传输 的 数据 量 并 且 降 低 传 
输 延 时 ， 基 于 不 同 的 应 用 提出 了 不 同 的 数据 传输 网 络 拓扑 模型 。 在 并 行 计算 中 ， 由 于 多 个 
进程 或 线程 可 能 同时 需要 完成 不 同 的 任务 。 管 理 数据 的 传输 并 且 在 有 限 传输 带宽 的 网 络 中 ， 

保证 传输 效率 是 极 具 挑战 的 。 

在 监督 学 习 的 设 定 中 ， 一 种 简单 的 提升 学 习 速度 的 方法 是 同时 训练 多 种 不 同 的 训练 数据 。 然 
而 ， 在 深度 强化 学 习 中 ， 智 能 体 和 环境 需要 在 时 间 上 顺序 多 次 交互 来 逐步 获得 有 效 信息 ， 因 而 不 
可 能 把 所 有 数据 集合 在 一 起 让 模型 同时 学 习 。 在 深度 强化 学 习 中 提高 并 行 计算 的 能 力 可 以 通过 让 
智能 体 在 训练 中 同时 并 行 学 习 多 个 训练 轨迹 ， 或 者 可 以 积累 批量 的 数据 来 训练 深度 强化 学 习 模 型 
中 的 参数 。 在 本 章 中 ， 我 们 即 从 计算 的 并 行 性 和 数据 传输 的 并 行 性 的 角度 分 析 深 度 强化 学 习 中 可 
以 采取 并 行 计算 的 方面 ， 并 且 在 解决 大 规模 深度 强化 学 习 问 题 的 同时 ， 我 们 将 介绍 当前 重要 的 分 
布 式 计算 的 算法 和 架构 。 





















































































































































































































































































































































12.2 ”同步 和 异步 


在 并 行 计算 中 ,最 普及 的 数据 计算 和 传输 方法 采用 类 似 星 形 的 拓扑 结构 ， 是 由 一 个 主 节点 和 
多 个 奴隶 节点 组 成 的 。 主 节点 整体 上 管理 数据 信息 ， 完 成 从 奴隶 节点 的 数据 分 发 和 收集 。 基 于 从 
奴隶 节点 收集 到 的 数据 ， 总 体 的 网 络 参数 将 得 到 学 习 并 更 新 。 每 一 个 奴隶 节点 ， 相 应 地 ， 会 从 主 
节点 收 到 分 配 的 数据 ， 进 行 具体 的 数据 计算 ， 并 将 计算 的 结果 提交 给 主 节点 。 由 于 在 主 节点 的 管 
里 下 ， 同 时 可 以 有 多 个 奴隶 节点 进行 数据 计算 。 这 样 的 并 行 计算 可 以 合作 高 效 地 完成 大 规模 模型 
参数 训练 问题 。 

星 形 结构 在 解决 深度 强化 学 习 的 问题 中 得 到 了 广泛 的 应 用 ， 例 如 ， 在 Actor-Critic 方法 的 并 
行 计算 版 本 ， 通 常会 采用 一 个 主 节点 ， 以 及 多 个 奴隶 节点 。 每 个 奴隶 节点 会 维护 一 个 深度 策略 网 
络 ， 该 策略 网 络 的 结构 和 其 他 奴隶 节点 和 主 节点 一 样 。 因 此 ， 奴 隶 节 点 在 初始 化 的 时 候 会 从 主 节 
点 ， 同 步 策略 网 络 的 参数 ， 然 后 其 将 独立 与 环境 交互 学 习 。 在 与 环境 交互 之 后 ， 奴 隶 节 点 将 再 次 
和 主 节 点 通信 ， 将 学 习 到 的 信息 提交 给 主 节点 ， 其 中 学 习 到 的 信息 基于 不 同 的 架构 可 以 是 单 步 探 
索 所 得 到 的 经 验 、 连 续 探索 的 轨迹 的 经 验 、 存 储 的 带 有 权重 的 探索 经 验 、 网 络 参数 的 梯度 信息 ， 
等 等 。 在 收集 到 每 个 奴隶 节点 探索 并 学 习 的 经 验 和 反馈 之 后 ， 主 节点 将 更 新 其 网 络 的 参数 ， 并 同 
步 给 所 有 奴隶 节点 ， 用 于 奴隶 节点 下 一 轮 的 探索 。 
星 形 拓扑 结构 清晰 地 将 任务 细 分 ， 通 过 多 个 奴隶 节点 的 并 行 计 算 加 速 了 智能 体 对 策略 的 学 
习 。 然 而 基于 不 同 的 计算 能 力 ， 不 同 奴隶 节点 完成 探索 并 收集 经 验 的 时 间 可 能 不 会 完全 相同 ， 基 
而 制定 数据 传输 的 模式 会 因 所 解决 的 问题 和 系统 架构 的 不 同 而 有 所 变化 。 一 般 来 说 ， 其 分 为 同步 
通信 和 异步 通信 两 种 模式 。 
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第 12 章 并 行 计算 





同步 通信 模式 如 





























图 12.1 所 示 , 其 中 红色 的 区 间 代 表 数 据 通 信 所 使 用 的 时 间 ， 蓝 色 的 区 间 表 示 


与 环境 交互 和 数据 计算 所 使 用 的 的 时 间 。 值 得 注意 的 是 ， 在 同步 通信 模式 中 ， 所 有 奴隶 节点 将 使 


用 完全 相同 的 时 间 区 





















































间 进 行 信息 交互 。 主 节点 将 用 相同 固定 的 时 间 段 同时 与 所 有 奴隶 节点 进行 通 





信 。 然 而 ,， 有 更 强 算 力 的 奴隶 节点 不 得 不 等 待 其 他 所 有 弱 算 力 的 节点 完成 本 轮 计算 任务 之 后 才能 

















继续 和 主 节点 通信 ， 





为 了 减少 奴隶 节点 的 等 待 时 间 ， 提 升 计算 资源 的 使 月 
图 12.2 所 示 ， 只 要 奴隶 节点 完成 了 本 轮 的 计算 或 探索 任务 ， 可 以 立刻 将 信息 提交 给 主 节 点 。 只 有 
主 节 点 才 会 用 收集 到 的 信息 更 新 网 络 参数 并 与 该 奴隶 节点 进行 
隶 节 点 能 够 继续 开始 下 一 轮 的 计算 或 探索 任务 。 基 于 此 种 方式 ， 主 节点 和 众多 奴隶 





奴隶 节点 提交 信息 ， 

























































































因而 同步 通信 和 模式 虽然 对 主 节点 来 说 在 收集 分 析 奴 隶 节 点 计算 结果 的 时 间 分 
配 上 更 为 清晰 固定 ， 但 是 在 奴隶 节点 中 会 有 大 量 计算 资源 因为 等 待 同步 而 造成 浪费 。 














效率， 异步 通信 模式 相应 被 提出 。 如 
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言 将 会 在 多 段 不 同 的 时 间 区 间 内 完成 ， 主 节点 需要 不 定时 地 与 不 同 的 奴隶 节点 进行 
隶 节 点 中 的 计算 资源 得 到 了 充分 的 利用 。 


M 


S1 























同步 ， 使 其 奴 


节点 的 数据 通 
































图 12.2 ”异步 通信 AE) 











通信 ， 确 保 奴 


12.3 并行 计算 网 络 





12.3. 并行 计算 网 络 
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星 形 拓扑 结构 采用 了 集中 控制 式 并 行 计算 的 方式 ， 其 中 存在 一 个 主 节点 管理 并 维护 整个 系 

















统 ， 使 其 确保 所 有 分 布 式 计算 的 任务 能 够 进行 得 井井有条 。 然 而 ， 从 另 一 个 方 
样 也 是 整个 系统 最 薄弱 的 部 分 ， 为 了 确保 计算 的 高 性 能 ， 主 节点 需要 在 处 理 数 ] 









































Ri, FE 

















据 上 比 奴隶 节点 更 























主 节点 的 数据 传输 带宽 需要 足够 大 。 不 仅 如 此 ， 系 统 的 稳定 性 将 大 大 取决 于 主 














nae 另外 ,由 于 所 有 奴隶 节点 可 能 需要 将 信息 同时 传输 给 主 节点 ， 为 了 避免 过 大 的 传输 延 时 ， 
节点 ， 如 果 主 节点 






































有 任何 的 停机 事件 ， 整 个 系统 将 停止 工作 ， 即 使 所 有 的 奴隶 节点 存在 大 量 可 用 





























的 计算 资源 。 











综 上 所 述 ， 对 于 很 多 对 稳定 性 和 大 规模 并 行 计算 有 需求 的 应 用 来 说 ， 拥 有 









































算 和 通信 的 结构 十 分 必要 。 我 们 假设 有 多 个 相互 独立 的 进程 ， 其 中 每 个 进程 会 建立 并 维护 一 个 结 
































个 分 布 式 数据 计 























构 相 同 的 深度 学 习 网 络 ， 并 且 进 程 与 进程 之 间 会 保持 频繁 的 通信 ， 以 使 网 络 参 数 保 持 同 步 。 由 于 
每 个 进程 需要 与 所 有 其 他 进程 通信 ， 当 进程 的 数量 增加 时 ， 进 程 间 通信 的 成 本 将 指数 级 上 升 。 为 
了 降低 宛 余 的 通信 并 高 效 地 实现 信息 同步 ， 具 有 消息 传递 接口 (Message Passing Interfaces, MPI) 
的 进程 间 通 信 CInter-Process Communication, IPC) 方式 将 被 采纳 。 一 般 来 说 ，MPI 提供 基本 的 进 


































































































































































































程 进行 数据 发 送 ， 广播 和 接收 的 接口 标准 ， 基 于 这 些 标准 ， 不 同 的 通信 结构 得 


此 提高 信息 交流 效率 。 一 些 经 典 的 通信 结构 举例 如 下 。 
。 树 形 结构 通信 : 设 系统 中 有 N 个 进程 ， 当 其 中 一 个 进程 希望 将 其 自身 的 












































































































































给 其 他 N 一 1 个 进程 时 ， 可 以 通过 如 图 12.3 所 示 的 树 形 结构 通信 。 在 树 形 通 信 结 构 ! 
进程 首先 会 将 信息 发 送 给 其 周围 m — 1 个 进程 ， 然 后 在 下 一 步 迭 代 中 ， 其 周围 的 m 一 1 个 






































以 进一步 提出 并 由 








网 络 参数 信息 广播 
2 
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进程 均 会 将 信息 并 行 发 送 新 的 m 一 1 个 不 同 的 进程 。 因 此 ， 随 着 并 行 通 
进程 仅 需 要 [logn N] 次 迭代 即 可 将 信息 发 送 给 所 有 其 他 N 一 1 个 进程 ， 
要 完成 (m 一 1)[log,, N| 次 通信 。 相 比 于 星 形 结构 
























































































































































发 送信 息 的 总 数 。 


EN EE p Exp ese] 
EE B FER A A EE A A i ERI 











图 12.3” 树 形 结构 通信 











通信 数目 的 增加 ， 该 
其 中 每 个 进程 只 需 








每 个 进程 都 需要 把 信息 分 别 发 送 给 所 
有 其 他 的 进程 ， 树 形 结构 通信 通过 提高 迭代 次 数 使 用 并 行 通信 的 方式 大 大 降低 了 所 有 进程 
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Rot 并 行 计算 





。 蝴 蝶 形 结构 通信 : 
程 将 可 以 通过 树 玫 


[^m 




















当 所 有 个 进程 需要 同时 将 
































结构 ! 














通信 
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iY 


， 每 个 进程 首先 将 信息 发 送 给 j 


























自身 的 信息 / 














如 图 
其 周围 m 一 1 个 进程 ， 并 同时 


12. 












































进程 发 来 的 信 




















息 用 于 下 一 次 迭代 中 信息 的 发 














收集 并 处 理 ] 


“ 播 给 所 有 其 他 进程 时 ， 每 个 进 
结构 的 形式 进行 通信 ， 从 而 全 加 为 蝴蝶 形 通 信 结 构 。 


4 PW, W 








送 。 由 于 每 个 进程 会 在 每 次 迭代 

















收集 并 
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也 进程 发 来 的 信息 ， 所 以 其 分 布 式 的 信 | 














成 ( 
其 他 进 
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的 。 对 
S, 在 下 一 节 : 

















12.4 


12.4.1 


异步 优势 Actor-Critic (Asynchronous Advantage Actor-Critic, A3C) (Mnih et al., 2016) 是 基于 
优势 ActorCritic (Advantage Actor-Critic, A2C) 算法 的 分 布 式 版 本 ， 如 图 
习 者 (Actor-Learner) 将 与 多 个 狐 
而 每 个 行动 -学 习 者 都 需 





大 
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数 ， 
采取 

















Er) 


从 每 一 个 行动 


所 有 进程 需要 
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imi 





(m 


N] vk 
另外 ， 


1) [logm 


N] 次 通信 。 

















信 完 成 所 有 信息 的 通信 ，3 
在 这 个 系统 








发 送 和 处 理 效率 得 到 了 进 



































步 的 提升 。 
每 个 进程 一 共 



































Tit d 














IEEE Me 











之 间 仍 可 以 继续 完成 信息 


基于 不 同 结构 的 通 
于 不 同 的 应 用 ， 为 了 提高 
， 我 们 将 进 


-学 习 者 的 角度 ， 其 具体 的 学 习 算 法 


的 同步 而 不 受到 影响 。 























童 ， 深 度 强 化 学 习 算 法 ; 
放行 性 和 处 理 
































分 布 式 强化 学 习 算法 


异步 优势 Actor-Critic 

















124 蝴蝶 形 结构 通信 











并 行 数据 计算 和 数据 传输 的 方式 是 灵活 且 多 样 
效率 ， 深 度 强化 学 习 算 法 的 架构 也 会 相应 地 有 所 调 
步 分 析 并 总 结 深度 强化 学 习 中 一 般 性 的 分 布 式 计 算 架 构 。 








12.5 Pim, MIA 
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iH 


完全 相同 的 环境 交互 ， 并 采 | 
维护 一 个 策略 网 络 和 一 个 价值 
AME. AT BAA TA 
动 -学 习 者 之 外 将 建立 参数 服务 器 ， 并 


j -学习 者 的 网 络 参数 初始 




















网 络 来 指导 其 




















] A2C SHE*£ 2] JE ES 
在 与 环境 的 交互 中 


GEE 














化 相同 并 保持 同步 ， 





支持 对 所 有 行动 -学 习 者 的 异步 通信 。 





























在 所 有 行 


















































如 算法 12.37 所 述 ， 在 每 个 学 习 




















过 异步 通信 ,每 个 
动 -学 习 
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行动 -学 习 者 
策动 作 并 与 环境 最 多 交互 
其 自身 的 策略 网 络 和 价值 网 络 ， 分 别 得 至 





者 会 做 出 


首先 会 从 参数 服务 器 : 











同步 其 网 络 参数 ， 基 于 更 新 的 策 











tmax 次 








j 两 个 网 络 参数 的 更 新 梯度 d0 I d 








， 与 环境 交互 探索 的 经 验 











Ren 
会 被 收集 并 ) 


周期 中 ， 通 
网 络 ， 行 


] 来 训 
































Oyo FETT 
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12.4 分 布 式 强 化 学 习 算 法 





Parameter Server (参数 服务 器 ) 


© © 
E 








ms) V(s) n(s) V(s) m(s) V(s) 
A i) a 
s s eeeces S 
Actor-Learner (行动 -学 习 者 ) Actor-Learner Actor-Learner 
Environment (环境 ) Environment Environment 





图 12.5 A3c 架构 


算法 12.37 异步 优势 Actor-Critic (Actor-Learner) 


超 参数 : 总 探索 步 数 Tax， 每 个 周期 内 最 多 探索 步 数 jaax。 
初始 化 步 数 t= 1 
while T < Tmax do 
初始 化 网 络 参数 梯度 : dg = 0 Fl db, = 0 
和 参数 服务 器 保持 同步 并 获得 网 络 参 数 久 = 0 和 07, = 0, 
tstart = t 
设 定 每 个 探索 周期 初始 状态 Se 
while 达到 终结 状态 Or t — tstart == tmax do 
基于 决策 策略 m (S,|0^) 选择 决策 行为 at 
在 环境 中 采取 决策 行为 ， 获 得 奖励 Re 和 下 一 个 状态 Suas 
t=t+1,T=T+1. 
































end while 

if 达到 终结 状态 then 
R=0 

else 
R = V(S0.) 

end if 


for i = t — 1,t — 2,- -- , tear do 
更 新 折扣 化 奖励 R= Ri o yR. 
积累 参数 梯度 0', dg = d0 + Vo log 1(5;|6’)(R — V(5;|0,)) 
积累 参数 梯度 0 , dg, = do, + 0(R — V(S;|0,))?/00/, 。 
end for 
基于 梯度 dg 和 do, 异步 更 新 9 和 0, 


end while 
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和 环境 交互 Tmax 次 后 ， 行 动 -学 习 者 会 将 两 个 网 络 所 有 累积 的 梯度 之 和 提交 给 参数 服务 器 ， 使 其 


能 够 分 别 异 步 更 新 网 络 服务 器 中 的 网 络 参数 0 和 Oyo 





12.4.2 GPU/CPU 混合 式 异 步 优 势 Actor-Critic 

















为 了 更 好 地 利用 GPU 的 计算 资源 从 而 提高 整体 计算 效率 ，A3C 进一步 优化 提升 为 GPU/CPU 
混合 式 异 步 优势 Actor-Critic (Hybrid GPU/CPU A3C, GA3C) (Babaeizadeh et al., 2017)， 如 图 12.6 
所 示 ， 在 学 习 模型 与 环境 的 交互 过 程 中 ，GA3C 算法 主要 由 智能 体 、 预 测 者 〈Predictor) 和 训练 























# (Trainer) 三 部 分 组 成 ， 每 一 部 分 的 功能 具体 如 下 。 









模拟 器 ”一 智能 体 ”模拟 器 > MEER eee 
决策 行为 决策 行为 


图 12.6 GA3C 架构 





训练 数据 


批 推 断 数 据 模型 批 训练 数据 
预测 者 训练 者 
预测 序列 
奖励 {=> 奖励 T | — 
























模拟 器 。 UEA 

















。 智能 体 : 在 GA3C 算法 中 ， 多 个 智能 体 分 别 与 模拟 的 环境 进行 交互 ， 然 而 每 个 智能 体 自身 不 
































需要 维护 一 个 策略 网 络 来 指导 其 做 出 决策 动作 ， 而 是 基于 当前 的 状态 S:， 将 如 何 决策 的 请 


求 发 送 给 预测 序列 ， 预 测 者 则 会 根据 整体 策略 网 络 顺序 为 预测 序列 中 的 请 求 提 供 决策 建议 。 
当 智 能 体 采取 A, 决策 动作 ， 通 过 与 环境 的 交互 获得 奖励 Ry 并 进入 状态 Sua 时 ， 智 能 体会 


























将 其 探索 经 验 的 信息 (S, A, Ri, 


Siri) 发 送 到 训练 队列 ， 用 于 学 习 网 络 参 数 的 训练 提升 。 





预测 者 : 当 预 测 者 从 智能 体 中 收 旨 
预测 队列 中 批量 获取 决策 请 求 ， 


















































决策 请 求 并 存储 在 预测 队列 中 ， 再 进行 模型 推论 时 ,将 从 
并 将 其 输入 决策 网 络 中 ， 从 而 为 每 一 个 请 求 得 到 建议 的 决 



































策动 作 。 由 于 批量 的 数据 输入 使 得 模型 在 推论 时 可 以 利用 GPU 的 并 行 计算 能 力 ， 因 而 提升 











了 学 习 模 型 的 计算 效率 。 基 于 不 
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同 的 请 求 数量 ， 预 测 者 和 其 预测 队列 的 数目 可 以 随 之 调整 














用 于 控制 信息 的 处 理 速度 ， 降 低 计算 延迟 ， 从 而 进一步 提升 计算 效率 。 


12.4 分 布 式 强 化 学 习 算 法 





。 训练 者 : 在 收 到 多 个 智能 体 的 交互 经 验 信息 后 ， 训 练 者 会 将 信息 存储 在 训练 队列 中 ， 并 从 中 
批量 选取 数据 ， 用 于 整体 策略 网 络 和 价值 网 络 的 模型 训练 。 同 样 ， 在 模型 训练 中 ， 批 量 的 
信息 输入 利用 GPU 的 并 行 计算 能 力 提 升 了 计算 效率 ， 同 时 也 降低 了 训练 结果 的 方差 。 













































































12.4.3 ”分 布 式 近 端 策略 优化 


分 布 式 近 端 策略 优化 (Distributed Proximal Policy Optimization, DPPO) 是 PPO 算法 的 分 布 
式 版 本 ， 如 图 12.7 所 示 ， 其 中 领导 者 和 工人 分 别 与 A3C 算法 中 的 参数 服务 器 和 行动 -学 习 者 的 功 
能 相对 应 。DPPO 算法 将 数据 的 采集 和 梯度 计算 分 布 在 多 个 工人 中 执行 ， 从 而 大 大 降低 了 学 习 的 
时 间 。 周 期 性 地 接收 每 一 个 工人 提交 的 平均 梯度 值 ， 领 导 者 会 更 新 其 自身 的 网 络 参 数 并 将 最 新 的 
网 络 参数 同步 更 新 给 所 有 工人 。 



































































































































图 12.7 DPPO 架构 





DPPO 算法 的 伪 代 码 从 领导 者 (Chief) MEA (Worker) 的 角度 分 别 由 算法 12.38、 算 法 12.39 
和 算法 12.40 所 述 ， 由 于 工人 可 以 基于 PPO 算法 两 种 版 本 PPO-Penalty 和 PPO-Clip 中 的 一 个 ， 因 
而 本 节 相 对 应 地 提出 两 种 DPPO 算法 , 分 别 为 DPPO-Penalty 和 DPPO-Clip。 这 两 种 算法 在 领导 者 
的 部 分 是 相同 的 ， 唯 一 的 区 别 是 工人 计算 梯度 的 方法 ， 具 体 可 见 如 下 伪 代 码 。 




















































































































算法 12.38 DPPO (Chief) 
超 参数 : workers 数目 W， 可 获得 梯度 的 worker 数目 门限 值 D, 次 迭代 数目 M, B. 
输入 : 初始 全 局 策略 网 络 参数 0， 初始 全 局 价值 网 络 参数 oo 
for k = 0,1,2,--- do 
for m € {1,---,M}do 
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局 梯度 0。 





等 待 至 少 可 获得 W — D 个 worker 计算 出 来 梯度 9， 去 梯度 的 均值 并 更 新 全 
end for 
for b € {1,--- , B} do 

等 待 至 少 可 获得 W — D 个 worker 计算 出 来 梯度 %， 去 梯度 的 均值 并 更 新 全 局 梯度 o 


end for 




















end for 
领导 者 从 工人 中 收集 网 络 参 数 的 梯度 信息 并 用 于 更 新 其 自身 的 网 络 参 数 。 由 算法 12.38 所 示 ， 
在 每 一 次 迭代 中 ， 策 略 网 络 和 价值 网 络 分 别 将 执行 M 和 B 次 子 迭 代 。 在 每 一 次 子 迭 代 中 ， 领 导 
者 至 少 等 待 所 有 工人 提交 (W — D) 组 梯度 数据 , 然后 用 所 有 这 些 梯度 的 均值 来 更 新 网 络 参数 。 更 
新 的 网 络 参 数 将 会 和 所 有 工人 同步 ， 用 于 其 之 后 的 采样 和 梯度 计算 。 
从 自身 的 角度 会 收集 数据 样本 并 计算 梯度 ， 然 后 将 梯度 传递 给 领导 者 。 算 法 12.39 和 算 
法 12.40 除 在 计算 策略 梯度 的 部 分 外 大 致 相同 ， 在 每 次 迭代 中 ， 工 人 首先 会 收集 一 组 数据 Dp 
开 根 据 收集 的 数据 计算 算法 中 的 Gi 或 4 ， 将 当前 探索 的 策略 ro 存储 为 rnua， 在 策略 网 络 和 价 
值 网 络 中 分 别 重复 M 和 B 次 子 迭 代 过 程 。 
算法 12.39 DPPO (PPO-Penalty worker) 
超 参 数 : KL 惩罚 系数 A, 自 适应 参数 a = 1.5,b = 2, MIEKA M, B. 
输入 : 初始 局 部 策略 网 络 参数 0, 初始 局 部 价值 网 络 参 数 9。 
for k = 0,1,2,--- do 
通过 在 环境 中 采用 策略 re 收集 探索 轨迹 Dj = (71) 
计算 rewards-to-go G'; 
基于 当前 价值 函数 Vo, 计算 对 advantage 的 估计 ， Ay (可 选择 使 用 任何 一 种 advantage 估计 方 
法 )。 
存储 部 分 轨迹 信息 
Told — To 
for m € (1,--- , M] do 





























































































































































































































































































































T 
Jepo(0) = 2. Dh — AKL[rzaa|vo] — € max(0, KL[roa |o] — 2KLrarget)? 
if KL[roi| 79] > 4K Ltarger then 
break 并 继续 开始 天 十 1 次 迭代 
end if 
计算 VgJppo 
发 送 梯度 数据 0 到 chief 
等 待 梯度 被 接受 或 被 舍弃 ， 更 新 网 络 参 数 。 
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end for 
forb c {1,--- ,B}do 
L(9) = -E (Ge — Vo (St)? 




















计算 VoL 

发 送 梯度 数据 o E chief 

等 待 梯度 被 接受 或 被 舍弃 ， 更 新 网 络 参数 。 
end for 





it d = Ê; [KLIroa(.|5o,re(:1S9]] 
if d < diga /a then 
A + Afb 
else if d > dtarget x a then 
ÀA«—AÀAxb 
end if 
end for 














算法 12.40 DPPO (PPO-Clip worker) 

MSA: clip AT e, 次 迭代 数目 M, B. 

输入 : 初始 局 部 策略 网 络 参数 0, 初始 局 部 价值 网 络 参 数 o. 

for k = 0,1,2,--- do 
通过 在 环境 中 采用 策略 re 收集 探索 轨迹 Dj = Uri) 
计算 rewards-to-go G' 
基于 当前 价值 函数 Vo, 计算 对 advantage 的 估计 ， A, (可 选择 使 用 任何 一 种 advantage 估计 方 
法 )。 
存储 部 分 轨迹 信息 
Told <— To 
for m € {1,--- , M} do 
通过 最 大 化 PPO-Clip 目标 更 新 策略 : 









































































































































Tol AlS) > , TAS) 、 ) 
Jppo (8) A ,1 一 el+e4 
Pol - or Sin in (ZAD a Rae ee 


TED t=0 


计算 VoJppo 























发 送 梯度 数据 0 到 chief 
等 待 梯度 被 接受 或 被 舍弃 ， 更 新 网 络 参 数 。 
end for 


forb c {1,--- ,B}do 
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通过 回归 均 方 误差 拟 合 价值 方程 : 
工 2 
L(¢) = 
(6) pr 2; >, (Yel - Gr) 
计算 VoL 
发 送 梯度 数据 o 到 chief 
等 待 梯度 被 接受 或 被 舍弃 ， 更 新 网 络 参数 。 
end for 
end for 





在 DPPO-Clip 中 ,网 络 参数 A 会 在 所 有 工 


























人 中 共享 , 但 是 否 更 3 








新 取决 于 每 一 个 工人 计算 的 




















均 KL 散 度 。 另 外 ， 在 工人 们 共享 的 数据 中 建议 使 用 统计 值 ， 例 如 ， 对 观察 到 的 数据 ， 奖 励 和 优 
势 函数 通过 计算 均值 和 标准 差 ， 使 其 具有 归 一 化 。 另 外 ， 在 DPPO-Clip 算法 中 ， 当 KL 散 度 超过 












































一 定数 值 后 会 添加 额外 的 处 罚 项 。 对 了 
高 算法 稳定 性 。 








12.4.4 重要 性 加 权 的 行 
基于 A2C 学 习 算法 ， 重 要 性 











策略 网 络 ， 在 每 次 子 迭 代 过 程 中 会 采用 


动 者 -学 习 者 结构 和 可 扩展 
加 权 的 行动 









































早 停 法 来 进一步 提 





高 效 深 度 强 化 学 习 




















Architecture, IMPALA ) 在 分 布 式 计 算 中 使 用 智和 























-学 习 者 结构 (Importance Weighted Actor-Learner 
E 体 探索 轨迹 的 所 有 经 验 作 为 通信 信息 。 如 图 12.8 



























































Fas, IMPALA 架构 由 行动 者 和 学 习 者 组 成 ， 具 体 介绍 如 下 : 
环境 .—t 
决策 行为 2k -F75 
行动 者 
行动 
环境 A 
观察 探索 轨迹 主 学 习 者 
行动 者 
图 12.8 重要 性 加 权 的 行动 者 -学 习 者 结构 























“行动 者 : 每 个 行动 者 中 会 有 一 个 复 
交互 时 收集 到 的 经 验 将 





il) AI 
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会 存储 到 缓冲 区 中 ， 在 与 环 | 














略 网 络 ， 





于 在 和 模拟 的 环境 交互 时 做 出 决策 , 在 
境 交 互 固 定 次 数 后 ， 每 个 行动 者 会 将 其 








































































































12.4 分 布 式 强 化 学 习 算 法 

存储 的 探索 轨迹 经 验 发 送 给 学 习 者 ， 并 和 其 他 行动 者 以 同步 通信 的 方式 从 学 习 者 中 收 到 更 
新 的 策略 网 络 参 数 信 息 。 

。 学 习 者 : 通过 和 行动 者 通信 ， 学 习 者 收 到 所 有 行动 者 收集 的 轨迹 经 验 信息 并 用 其 训练 模型 ， 























设 在 状态 Sp 下 的 价值 估计 为 n 步 V 轨迹 Target， 定 义 如 下 


T+n-1 





































































































































































































































































































































































































Target =V(Sr)+ XO yf T (Ici) &V, (12.1) 
fT. 

其 àV 一 pr(R: +V (81441) - V (94)) 表示 时 间 差分 。 Pt = min(p, ZEA), Ci = min(é, a). 
n 为 学 习 者 的 决策 策略 ， 为 上 一 轮 同 步 时 所 有 行动 者 的 策略 / 的 均值 。 

大 规模 模型 训练 算法 可 以 存在 多 个 学 习 者 ， 细 分 为 工人 学 习 者 和 主 学习 者 ， 每 个 学 习 者 会 和 
不 同 的 行动 者 通信 并 独立 完成 模型 训练 ， 但 周期 性 地 ， MELAN E IAMEN EA Sia, fF 
个 工人 学 习 者 会 将 学 习 到 的 网 络 参数 梯度 发 送 给 主 学 习 者 ， 然 后 主 学 习 者 会 更 新 其 自身 的 网 络 参 
数 并 同步 更 新 到 所 有 的 工人 学 习 中 。 

可 扩展 高 效 深度 强化 学 习 (Scalable, Efficient Deep-RL, SEED) 架构 (Espeholt et al., 2019) 和 
IMPALA 十 分 类 似 ， 主 要 的 区 别 在 于 策略 网 络 的 推断 过 程 会 从 行动 者 部 分 转移 到 学 习 者 中 ， 从 而 
降低 了 行动 者 的 算 力 要 求 和 通信 延 时 。 具 体 的 SEED 架构 如 图 12.9 所 示 ， 由 于 每 个 行动 者 中 只 需 
要 完成 和 环境 的 交互 ,很 多 弱 算 力 的 计算 资源 可 以 加 入 架构 中 并 成 为 独立 的 行动 者 。 根 据 学 习 者 
指导 的 决策 动作 ， 每 一 个 行动 者 将 一 步 的 经 验 反馈 给 学 习 者 ， 其 反馈 的 经 验 信息 将 首先 存储 在 学 
习 者 的 经 验 绥 冲 器 中 。 在 多 次 迭代 之 后 ， 批 量 的 轨迹 经 验 数据 将 提供 给 学 习 者 进行 模型 训练 ， 其 
中 方程 (12.1) 中 V 轨迹 目标 也 被 使 用 作为 状态 的 价值 估计 。 

观测 数据 — ejes 
行动 者 工作 -学 习 者 
ssi [sss 
观测 数据 TT Cm 
M S o. 
— zasa] 
行动 者 主 学 习 者 
图 129 可 扩展 高 效 深 度 强化 学 习 架 构 
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12.4.5 Ape-X、 回 漳 - 行 动 者 和 分 布 式 深度 循环 回放 Q 网 络 


在 分 布 式 网 络 中 ， 考 虑 到 智能 体 和 环境 的 频繁 交互 ， 将 带 有 优先 级 的 经 验 回 
规模 化 场景 很 有 助 益 。Ape-X (Horgan et al., 2018) 是 典型 的 包含 带 有 优先 级 的 经 验 回 放 部 分 的 分 
































放 加 入 架构 中 对 






































布 式 架构 ， 如 图 12.10 所 示 。 设 有 多 个 相互 独立 的 行动 者 ， 在 每 个 行动 














中 会 有 一 个 智能 体 在 策 











略 网 络 的 指导 下 与 环境 进行 交互 。 基 于 从 多 个 行动 者 中 收集 的 经 验 信息 ， 学 习 者 将 训练 其 网 络 参 











数 ， 从 而 学 习 最 优 的 动作 策略 。 不 仅 如 此 ， 除 了 行动 者 和 学 习 者 ， 算 法 中 还 有 回 
有 行动 者 采集 的 信息 ， 维 护 并 更 新 每 一 个 存储 经 验 的 优先 级 ， 并 





























放 缓冲 区 收集 所 




















Ee 度 从 中 批量 选取 数 















































据 发 送 给 学 习 者 进行 模型 训练 。 经 过 回放 绥 冲 区 的 处 理 ， 批 量 且 标 有 优先 级 的 训 























地 提升 计算 效率 及 模型 训练 结果 。 


EZN-— = 


学 习 者 经 验 回 放 


图 12.10 Ape-X 架构 














































































































练 数据 能 够 有 效 








EUR. ITa 




















FIX. o 









































回放 缓冲 区 中 获得 带 有 优先 级 的 批量 经 验 数 据 ， 每 个 数据 信息 


























索引 编号 ，d 为 具体 的 经 验 数 据 信 息 ， 其 中 包括 初始 状态 、 决 策动 
状态 四 个 部 分 。 批 量 的 经 验 数据 将 用 来 训练 学 习 者 的 网 络 参数 ， 并 所 
所 有 行动 者 中 的 策略 网 络 参 数 保持 同步 。 另 外 ， 在 模型 训练 之 后 ， 杉 

























































































数据 删除 。 





当 训练 模型 分 别 使 用 DQN 或 DPG 算法 的 时 候 ， 基 于 如 上 架构 ，Ape-X 深度 Q 网 

















并 在 回放 缓冲 区 中 更 新 。 由 于 容量 大 小 的 限制 在 回放 缓冲 区 中 会 





在 行动 者 中 的 算法 如 算法 12.41 所 示 ， 其 中 每 一 个 行动 者 首先 和 学 习 者 在 策略 网 络 参数 上 保 
持 同 步 ， 更 新 的 网 络 参数 信息 将 指导 智能 体 和 环境 发 生 交 互 。 在 收 到 环境 
会 计算 其 中 探索 经 验 数据 的 优先 级 ， 并 将 带 有 优先 级 信息 的 数据 发 送 给 回 
当 回 放 缓 冲 区 从 行动 者 中 收集 到 确定 数目 的 经 验 信息 后 , 学 习 者 将 开始 从 回放 缓冲 区 获取 批 
量 信息 进行 学 习 。 从 学 习 者 的 角度 如 算法 12.42 所 示 ， 在 每 个 模型 训练 周 学 习 者 首先 将 从 
] (i, d) 表示 ， 其 中 i 表示 数据 的 
励 和 采取 动 
地 将 更 新 的 网 络 参数 与 
单数 据 的 优先 级 ; 


作 后 到 达 的 


和 会 被 调整 
“有 较 低 优先 级 的 


络 (Ape-X 


DQN) 和 Ape-X 深度 策略 梯度 CApe-X DPG) 相对 应 被 提出 。 在 Ape-X DQN 中 ，Q 网 络 存在 学 








习 者 和 所 有 行动 者 中 ， 在 行动 者 中 智能 体 的 决策 动作 受 网 络 产 9 








338 


EI] Q 值 指导 ; 在 Ape-X DPG ! 
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12.4 ”分 布 式 强化 学 习 算法 





算法 12.41 Ape-X (Actor) 


超 参 数 : 单 次 批量 发 送 到 回放 缓冲 区 的 数据 大 小 By ARE T. 
与 学 习 者 同步 并 获得 最 新 的 网 络 参 数 00 

人 So 

fort = 0,1, 2,- 一 1do 

基于 决策 策 策 上 HOPES 选择 决策 行为 At 

ig E Contacts 
if 当地 缓冲 区 存储 数据 达到 数目 门限 值 B then 
批量 获得 缓冲 数据 B 
计算 获得 缓冲 数据 的 优先 级 p 
将 批量 缓冲 数据 和 其 更 新 的 优先 级 发 送 回放 缓冲 
end if 
周期 性 同步 并 更 新 最 新 的 网 络 参数 0, 


end for 
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算法 12.42 Ape-X (Learner) 


超 参 数 : 学 习 周 期 数目 了 

初始 化 网 络 参数 Oo 

for t = 1,2,3,--- , T do 

从 回放 缓冲 区 中 批量 采样 带 有 优先 级 的 数据 G, d) 
通过 批 数据 进行 模型 训练 
更 新 网 络 参 数 0 
对 于 批 数据 d 计算 优先 级 p 

更 新 回放 缓冲 区 中 索引 i 数据 的 优先 级 p 
周期 性 地 从 回放 缓冲 区 中 删除 低 优先 级 的 数据 












































































































































学 习 者 将 构建 策略 网 络 和 价值 网 络 ， 而 在 行动 者 里 只 有 相同 结构 的 策略 网 络 ， 用 于 指导 其 智能 体 
制定 策略 动作 。 

同样 设立 带 有 优先 级 的 分 布 式 回放 缓冲 区 ， 回 渊 -行动 者 CRetrace-Actor, Reactor) (Gruslys 
et al., 2017) 基于 Actor-Critic 架构 被 提出 ， 取 代 之 前 的 单个 经 验 信息 ， 一 个 序列 的 经 验 信息 将 被 
同时 输入 缓冲 区 中 ， 并 采用 Retrace(A) 算法 来 更 新 对 Q 值 的 估计 。 在 神经 网 络 中 ，LSTM 网 络 将 
在 策略 和 价值 网 络 中 使 用 ， 并 获得 很 好 的 模型 训练 结果 。 

类 似 地 , 分 布 式 深度 循环 回放 Q 网 络 (Recurrent Replay Distributed DON. R2D2) (Kapturowski 
et al., 2019) 在 带 有 优先 级 的 分 布 式 回放 缓冲 区 中 采用 具有 固定 长 度 序列 的 经 验 格式 ， 基 于 深度 Q 
网 络 (DQN) 算法 ，R2D2 同样 在 策略 网 络 中 使 用 LSTM 层 ， 并 且 用 存在 回放 缓存 区 中 的 状态 数 
据 训 练 网 络 。 
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12.4.6 Gorila 


基于 深度 Q 网 络 算法 (General Reinforcement Learning Architecture, Gorila) (Nair et al., 2015) 












































如 图 12.11 所 示 。 在 此 架构 中 ， 当 和 参数 服务 器 中 深度 Q 网 络 的 参数 保持 同步 之 后 ， 行 动 者 将 在 
深度 Q 网 络 的 指导 下 和 环境 进行 交互 ， 并 将 通过 交互 收集 到 的 经 验 直接 发 送 到 回放 绥 冲 区 。 回 








放 缓冲 区 将 存储 并 管理 所 有 从 行动 者 中 收集 经 验 信息 。 当 从 回放 缓冲 区 中 获取 批量 数据 后 ， 学 习 
者 将 会 进行 模型 学 习 并 计算 Q 网 络 中 参数 的 梯度 。 在 学 习 者 中 会 用 一 个 学 习 Q 网 络 和 一 个 目标 



































Q 网 络 来 计算 TD 误差 ， 其 中 学 习 Q 网 络 将 会 在 学 习 的 每 一 步 和 参数 服务 器 中 的 网 络 参 数 保持 同 
步 ， 然 而 目标 Q 网 络 只 在 每 过 NN 步 之 后 和 参数 服务 器 同步 。 参 数 服务 器 将 周期 性 地 从 学 习 者 中 
接收 网 络 参数 的 梯度 信息 ， 并 更 新 自身 的 网 络 参数 ， 以 使 之 后 的 探索 更 具 效 率 。 









































参数 服务 器 BAR 
EBENEN =. 
is 相同 结构 
BEES | 策略 网 络 / 
Q 网 络 


行动 者 行动 者 行动 者 
= 
图 12.11 Gorila 架构 














12.5 ”分布 式 计 算 架 构 








基于 并 行 计算 的 基本 模式 和 结构 ， 在 分 布 式 强化 学 习 中 ， 大 规模 并 行 计算 架构 能 够 得 以 进 一 











步 探索 和 研究 。 一 般 来 说 ， 其 系统 一 般 会 有 如 下 基本 组 成 元 素 ; 














* EM (Environments) : 环境 是 智能 体 需要 与 其 交互 的 场景 。 
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在 深度 学 习 的 大 规模 并 行 计算 





12.5 ”分布 式 计算 架构 





ti 


中 ， 环 境 可 能 会 存在 多 个 复制 版 本 ， 并 分 别 对 应 到 多 个 行动 者 中 ， 使 其 能 够 相互 独立 地 并 
行 探索 ， 获 取经 验 ， 并 且 ， 在 基于 模型 的 强化 学 习 中 ， 通 常会 用 多 个 模拟 的 环境 来 使 其 在 










































































探索 和 学 习 : 








具备 并 行 性 。 

















行动 者 (Actors): 系统 中 行动 者 通常 指 直接 和 环境 进行 交互 的 部 分 。 其 中 ， 可 能 会 有 多 个 



































行动 者 和 一 个 或 多 个 真实 或 模拟 的 环境 进行 交互 ， 并 且 其 中 每 一 个 行动 者 都 能 在 所 给 出 的 
环境 状态 下 独立 地 做 出 决策 动作 。 其 决策 动作 可 以 由 行动 者 自身 的 集 略 网 络 或 者 Q 网 络 推 

























































































断 产 生 ， 或 者 是 由 参数 服务 器 或 者 其 周围 的 学 习 者 中 共享 的 策略 网 络 或 Q 网 络 产生 的 。 当 












































行动 者 在 环境 中 进行 了 连续 多 步 的 探索 之 后 ， 探 索 轨 迹 将 形成 。 形 成 的 探索 轨迹 将 会 被 提 
交 到 回放 存储 缓冲 器 或 者 直接 提交 给 学 习 者 。 由 于 行动 者 和 环境 的 交互 需要 花费 很 多 时 间 ， 
所 以 ， 行 动 者 探索 和 数据 收集 的 并 行 性 能 够 提升 获得 经 验 数 据 的 速度 ， 从 而 可 以 将 批量 数 
据 发 送 给 学 习 者 训练 模型 ， 训 练 效果 得 到 很 大 提升 。 
















































































回放 存储 缓冲 区 CReplay Memory Buffers): 回放 存储 缓冲 区 将 会 从 所 有 行动 者 中 收集 探索 






































轨迹 ， 并 将 其 整理 后 提供 给 学 习 者 | 

































































于 策略 学 习 或 者 Q 学 习 。 由 于 存储 缓冲 区 需要 快速 的 


























数据 读 写 和 数据 打 乱 重 排 , 数据 存储 的 结构 同样 需要 文 持 动态 且 并 行 的 方式 。 并 且 , 由 于 大 
多 数学 习 者 依赖 回放 存储 缓冲 区 中 的 数据 进行 模型 训练 。 为 了 保证 模型 训练 的 高 效率 ， 建 


议 在 回放 存储 缓冲 区 分 配 在 学 习 者 的 周围 并 高 效 连通 。 


































































































SA (Learners): 学 习 者 是 深度 强化 学 习 的 关键 组 成 部 分 ， 基 于 不 同 的 深度 强化 学 习 方 






























































法 , 学 习 者 的 结构 也 将 各 有 不 同 。 通常 来 说 , 每 个 学 习 者 会 维护 一 个 策略 网 络 或 Q 网 络 ,并 
且 用 从 回放 存储 缓冲 区 中 得 到 的 行动 者 与 环境 交互 的 经 验 信息 来 训练 深度 网 络 参数 。 在 训 
练 前 后 ， 学 习 者 均 会 和 参数 服务 器 进行 通信 ， 使 其 在 训练 前 同步 深度 网 络 参数 信息 ， 并 在 






















































































训练 后 提交 训练 得 到 的 参数 梯度 信息 。 多 个 学 习 者 和 参数 服务 器 的 通信 方式 可 以 是 同步 或 


异步 的 。 






































参数 服务 器 (Parameter Servers): 参数 服务 器 是 从 学 习 者 中 收集 所 有 信息 并 维护 管理 策略 
网 络 或 者 Q 网 络 中 的 参数 信息 。 参 数 服务 器 将 周期 性 地 和 所 有 学 习 者 保持 同步 ， 使 每 个 学 



























































习 者 获得 其 他 学 习 者 学 习 得 到 的 信息 ， 并 且 参 数 服务 器 能 够 在 行动 者 和 环境 交互 时 帮助 其 











Peps Aap 








制定 决策 策略 。 在 大 规模 深度 强化 学 习 系统 中 ， 为 了 保证 参数 服务 器 和 学 习 者 及 行动 者 通 
























































fe EE BEER E A 

















中 式 或 分 布 式 的 数据 通信 方式 。 
的 分 布 式 计算 架构 可 以 采纳 其 中 元 素 组 合 形成 。 由 于 其 中 的 每 一 部 分 可 独立 且 并 行进 




















和 高 效率 ， 参 数 服务 器 自身 也 可 以 具有 多 种 不 同 的 架构 ， 其 内 部 也 可 采用 集 


















































行 数 据 的 存储 ， 传 输 或 计算 ， 其 架构 可 以 根据 要 解决 的 问题 适应 性 调整 并 灵活 改变 ， 从 而 充分 满 














足 应 用 

















多 样 的 学 习 任务 需求 。 
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应 用 部 分 



































为 了 帮助 读者 更 加 深入 地 理解 深度 强化 学 习 ， 并 能 很 快 地 把 相关 技术 用 到 实践 中 ， 下 面 的 章 
节 将 会 介绍 五 个 精 选 的 应 用 ， 包 括 Learning to Run、 图 像 增强 、AlphaZero、 机 器 人 学 习 和 基于 
Arena 平台 的 多 智能 体 强化 学 习 。 这 些 应 用 履 盖 了 尽 可 能 多 的 细节 ， 帮 助 读 者 理解 不 同 场景 下 的 
实现 技巧 。 表 1 列 出 了 该 部 分 的 应 用 及 其 算法 名 称 、 策 略 、 动 作 空 间 和 观测 的 形式 。 我 们 相信 这 
些 内 容 能 帮助 读者 根据 具体 应 用 来 选择 对 应 类 似 的 项 目 。 


1 ”本 书 应 用 部 分 的 总 结 

































































































































































应 用 算法 空 观测 
Learning to Run SAC 连 给 连续 
图 像 增强 PPO 图 片 特 征 
EU ae E 
(Binary Chessboard Matrix ) 


















































AlphaZero MCTS 








机 器 人 学 习 SAC 
基于 Arena 平台 的 多 智能 体 强 化 学 习 | MADDPG, etc 
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Learning to Run 
































在 这 一 章 ， 我 们 提供 了 一 个 实践 项 目 ， 方便 读者 获得 一 些 深度 强化 学 习 应 用 的 经 验 ， 而 这 个 
项 目 是 一 个 由 CrowdAI 和 NeurIPS1 2017 主办 的 挑战 : Learning to Run。 这 个 环境 有 41 维 的 状 
态 空 间 和 18 维 的 动作 空间 ， 二 者 都 是 连续 的 ， 因 此 ， 对 于 初学 者 获取 经 验 而 言 是 一 个 较 大 规模 
的 环境 。 我 们 为 这 个 任务 提供 了 一 个 柔性 ActorCritic (Soft Actor-Critic, SAC) 算法 的 解决 方案 ， 
同时 也 有 一 些 辅助 技巧 来 提高 其 表现 。 环 境 和 代码 链接 见 读者 服务 。 


































































































13.1 NeurIPS 2017 挑战 : Learning to Run 





13.1.1 环境 介绍 


Learning to Run 是 一 个 由 CrowdAI 和 NeurIPS 2017 举办 的 竞赛 ， 吸 引 了 许多 强化 学 习 硬 
究 人 员 的 参与 。 在 这 个 任务 中 ， 参 与 者 被 要 求 开 发 一 个 控制 器 ， 使 得 一 个 生理 学 人 体 模 型 可 以 尽 
可 能 快 地 通过 一 条 复杂 而 有 障碍 物 的 路 线 。 任务 中 提供 了 一 个 肌肉 骨骼 模型 和 一 个 基于 物理 过 程 
模拟 环境 。 为 了 模拟 这 个 物理 和 生物 力学 过 程 并 用 强化 学 习 智能 体 对 其 导航 ,任务 提供 了 一 个 基 
于 OpenSim 库 的 osim-rl 环境 ， 而 OpenSim 是 一 个 对 肌肉 骨骼 建 模 的 标准 物理 和 生物 力学 环境 。 
如 图 13.1 所 示 是 一 个 包括 主体 在 内 的 环境 场景 。 
这 个 环境 结合 了 一 个 包括 两 条 腿 、 一 个 骨 贫 、 一 个 代表 上 半身 的 部 分 〈 躯 干 、 头 部 、 手 臂 ) 
的 肌肉 骨骼 模型 。 不 同 部 分 之 间 由 关节 连接 (比如 膝 关节 和 髋 )， 而 这 些 关 节 处 的 活动 由 肌肉 激 
发 来 控制 。 模 型 中 的 这 些 肌 肉 有 很 复杂 的 路 径 〈 比 如 ， 肌 肉 可 以 经 过 不 止 一 个 关节 ， 并 且 模 型 中 
有 宛 余 肌肉 )， 而 肌肉 激励 器 本 身 也 是 高 度 非 线性 的 。 这 个 智能 体 在 3 维 世 界 中 进行 2 维 运 动 。 为 



























































































































































































































































































































































1 该 会 议 名 称 当时 缩写 为 NIPS 。 
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了 便于 理解 和 操作 ， 我 们 在 这 个 项 目 中 使 用 的 环境 相 比 挑 成 赛 中 使 用 的 有 所 简化 ， 因 此 可 能 有 些 
地 方 跟 竞赛 官方 文档 略微 不 同 。 如 下 是 骨骼 模型 的 所 有 组 成 部 分 。 




















图 13.1 NeurlPS 2017 挑战 赛 : Learning to Run 环境 ( 见 彩 插 ) 


。 观察 量 包括 41 “MA: 
骨盆 位 置 〈 角 度 ，z 坐标 ，y 坐标 ) 
* 骨盆 速度 〈 角 速度 ，z 速度 ，y 速度 ) 
* 每 个 躁 关 节 、 膝 关节 和 髋 的 角度 C6 个 值 ) 
EMR TT. RRR AHR ET FRE C6 “MEDD 
* 质心 位 置 (2 个 值 ) 
* 质心 速度 〈2 ME) 
*3LEB. AH. SOF. EAW AR Gk 14 个 值 ) 
* 左右 腰 肌 强度 : 对 难度 级 别 低 于 2《〈 难 度 值 是 一 个 默认 环境 参数 ) 的 环境 ， 其 值 为 1.0, B 
则 它 是 一 个 随机 变量 ， 在 整个 模拟 周期 中 采样 于 均值 为 1.0、 标 准 差 为 0.1 的 固定 正 态 分 
布 。( 注 意 : 在 我 们 简化 的 环境 中 ， 这 些 腰 肌 强度 值 被 设 为 0.0。) 
* 下 一 个 障碍 物 : 到 骨盆 的 x 轴 距 离 ， 以 及 其 中 心 相 对 地 面 的 y 坐标 。( 注 意 : 在 我 们 的 简 
化 环境 中 ， 所 有 这 些 值 被 设 为 0.0， 无 障碍 物 出 现 。) 
。 动 作 包 括 18 个 标量 值 ， 分 别 表示 18 块 肌肉 的 激发 程度 〈 每 条 腿 9 个 ): 
* fif 28 UL BE 
* 股 二 头 肌 
* RRM 
* HEL 


* 
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KEWL 
股 肌 
腓 肠 肌 
比目鱼 肌 
E RE JUL 
。 奖 励 函 数 : 
奖励 函数 由 骨盆 沿 x 轴 运 动 距离 减 去 由 于 使 用 韧带 的 惩罚 计算 得 到 。 
。 其 他 细节 : 











































































































EF 0.65 米 时 发 生 


° 























“done” 信 和 号 表示 这 一 步 是 环境 模拟 的 最 后 一 步 。 这 会 在 1000 次 迭代 到 达 或 者 





从 以 上 对 环境 的 描述 中 我 们 可 以 看 出 ， 相 比 于 其 他 OpenAI Gym 或 DeepMind Control Suite 中 的 














































































































来 解决 这 个 任务 。 我 们 在 随 书 的 代码 库 中 提供 了 这 个 环境 的 副本 和 解决 方案 的 代码 ， 
推荐 读者 用 这 个 项 目 进行 上 手 练习 。 















































13.1.2 Zt 


根据 官方 库 ， 这 个 环境 可 以 用 以 下 命令 行 安 装 : 
1. 创建 一 个 包含 OpenSim 软件 包 的 Conda 环境 (命名 为 opensim-rl)。 





























大 | 











游戏 ， 这 个 竞赛 的 环境 相对 复杂 ， 有 着 高 维 观察 量 空间 和 动作 空间 。 因 此 ， 以 较 好 的 表现 和 较 短 
的 训练 时 间 解 决 这 个 任务 需要 一 些 特殊 的 技巧 。 我 们 将 介绍 这 些 具体 方法 及 用 一 个 并 行 训练 框架 


此 ， 我 们 





conda create -n opensim-rl -c kidzik opensim python=3.6.1 








2. 激活 我 们 刚 创 建 的 Conda 环境 。 
在 Windows 上 ， 运 行 : 











activate opensim-rl 





在 Linux/OS X 上 





运行 : 








source activate opensim-rl 














你 需要 在 每 次 打开 一 个 新 的 终端 时 输入 上 面 的 命令 。 
3. 安装 我 们 的 Python 强化 学 习 环 境 。 




















conda install -c conda-forge lapack git 


pip install osim-rl 
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自从 2017 年 以 后 ， 这 个 挑战 已 连续 举办 了 三 年 (至 2019 年 )。 因 而 ， 最 初 的 Learning to 
Run 环境 由 于 版 本 更 新 已 经 被 上 废弃。 虽然 如 此 ， 我 们 仍旧 选择 用 这 个 原始 的 2017 版 本 环境 来 做 
示范 ， 因 为 它 相 对 简单 。 于 是 ， 在 我 们 的 项 目 中 提供 了 一 个 仓库 存放 2017 版 本 的 环境 : 




































































git clone 


https://github.com/deep-reinforcement-learning-book/Chapter13-Learning-to-Run.git 























我 们 所 用 的 强化 学 习 算 法 代码 和 环境 的 封装 也 都 在 上 述 仓库 中 提供 。 
通过 以 上 几 步 ， 我 们 已 经 完成 了 环境 的 安装 ， 可 以 通过 以 下 命令 检验 安装 是 否 成 功 ， 















































python -c "import opensim" 












































如 果 它 能 正常 运行 ， 说 明 安 装 已 成 功 ， 否 则 ， 可 以 在 这 个 网 站 找到 解决 方案 。 
用 随机 采样 执行 200 次 模拟 迭代 ， 我 们 可 以 用 Python 解释 器 运行 以 下 命令 (在 Linux 环 














境 ): 
from osim.env import RunEnv # 导入 软件 包 
env = RunEnv(visualize=True) # 初始 化 环境 


observation = env.reset(difficulty = 0) # 重 置 环境 
for i in range(200): # 采集 样本 


observation, reward, done, info = env.step(env.action space.sample()) 























这 个 环境 由 于 已 被 写成 OpenAI Gym 游戏 的 格式 ， 对 用 户 十 分 友好 ， 而 且 有 一 个 定义 好 的 奖 
励 函 数 。 我 们 的 任务 是 得 到 一 个 从 当前 观察 量 〈 一 个 41 ERE) 到 肌肉 激活 动作 (18 维 矢量 ) 
的 映射 函数 ， 使 得 它 能 够 最 大 化 奖励 值 。 如 前 所 述 ， 奖 励 函 数 被 定义 为 一 个 迭代 步 中 骨 侈 沿 z 轴 
的 位 移 减 去 韧带 受 力 大 小 ， 从 而 尽 可 能 鼓励 智能 体 在 最 小 身体 损耗 的 情况 下 向 前 移动 。 






















































































13.2 ”训练 智能 体 


为 了 更 好 地 解决 这 个 任务 ， 在 训练 框架 中 需要 实现 一 系列 技巧 ， 包 括 : 
。 一 个 可 以 平衡 CPU 和 GPU 资源 的 并 行 训练 框架 ; 

。 奖励 值 缩放 ; 

。 指数 线性 单元 (Exponential Linear Unit, ELU) 激活 函数 ; 

。 层 标准 化 (Layer Normalization); 

。 动作 重复 ; 

。 更 新 重复 ; 

。 观 察 量 标准 化 和 动作 离散 化 可 能 是 有 





































































































] 的 ， 但 我 们 未 在 提供 的 解决 方案 中 使 用 ; 














— 
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。 根 据 智能 体 双 腿 的 对 称 性 所 做 的 数据 增强 可 
注意 ， 根 据 竞赛 参与 团体 


















































] 的 ， 但 我 们 未 在 提供 的 解决 方案 中 使 用 。 








的 实验 和 报告 ， 后 两 个 技巧 也 可 能 是 有 用 的 ， 但 由 于 它们 更 多 基于 

















该 具体 任务 的 方法 而 不 对 















































察 量 标准 化 、 动 作 值 离散 化 和 数据 增强 是 可 以 根 
这 个 环境 一 个 典型 的 人 
































的 解决 方案 中 使 用 。 然 而 ， 要 知道 观 











































































































体 情况 应 用 来 加 速 学 习 过 程 的 。 























秒 时 间 。 为 了 更 高 效 地 学 习 策略 ， 我 们 需要 将 采样 


13.2.1 并行 训 练 

















Run 环境 较 慢 的 模拟 速度 ， 























决 陷 是 模拟 速度 太 慢 ， 在 一 个 普通 CPU 上 完成 单个 片段 至 少 需要 几 十 




















至 少 有 两 个 原因 需要 我 


























在 复杂 度 。 基 于 作者 经 验 ， 这 个 环境 用 

















KIFEJT o 





行 并 行 训 练 。 第 一 个 是 由 于 上 面 所 述 Learning to 
E 少 耗 时 几 十 秒 完成 一 个 模拟 片段 。 第 二 个 是 由 于 该 环境 有 较 高 的 内 
省 通 的 无 模型 CModel-Free) 强化 学 习 算 法 ， 如 深度 决定 











性 策略 梯度 (Deep Deterministic Policy Gradient, DDPG) 或 柔性 Actor-Critic (Soft ActorCritic， 


SAC)， 需 要 至 少 上 百 个 CPU/CPU 计算 小 时 来 获 


跨 GPU 的 训练 框架 。 











现 。 此 外 ，CPU 和 GPU 之 间 的 了 
CPU 上 ， 而 反 向 传播 训练 过 也 


























一 个 较 好 的 策略 。 因 此 ， 这 里 需要 一 个 多 进程 




















由 于 Learning to Run 环境 的 高 复杂 度 ， 训 练 过 程 需要 












































多 个 CPU 和 GPU 来 并 行 分 布 实 











F 衡 对 这 个 任务 也 很 关键 ， 
一 般 是 在 GPU 上 。 整 个 过 程 和 














为 与 环境 交互 采样 的 过 程 一 般 是 在 








| 练 效率 在 实践 中 满足 短 板 效 应 。 

















关于 并 行 训练 中 如 何 均 衡 CPU 和 GPU 计算 的 内 容 在 第 12 章 和 第 18 章 中 也 有 讨论 。 这 里 有 一 种 


解决 这 个 任务 的 方案 。 



































如 图 13.2 Bras, 在 一 般 的 单 进程 深度 强化 学 习 中 ,训练 过 程 由 一 个 进程 来 处 理 ， 而 这 通常 无 









































法 充分 发 挥 计 算 资 源 的 潜力 ， 尤 其 在 有 多 个 CPU 核 和 多 个 GPU 的 情况 下 。 













































































可 以 共享 同一 个 GPU， 因为 有 时 单个 了 
同一 个 GPU 的 进程 数量 和 工作 者 数量 可 以 被 手动 设 














的 利用 率 。 
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图 132 在 离线 策略 深度 强化 学 习 






























































个 进程 来 采样 和 训练 策略 











图 13.3 展示 了 在 多 个 CPU 和 多 个 GPU 上 部 署 离 线 策略 (Off-Policy〉 深 度 强 化 学 习 的 并 行 
训练 架构 ， 其 中 ， 一 个 智能 体 和 一 个 环境 被 封装 进 一 个 “工作 者 ”来 运行 一 个 进程 。 多 个 工作 者 
5 用 整个 GPU 内 存 。 在 这 种 设置 下 ， 使 用 










































































从 而 在 学 习 过 程 中 最 大 化 所 有 计算 资源 





13.2 ”训练 智能 体 








图 13.3 
体 ， 策 略 被 分 布 在 多 个 GPU 上 训练 
我 们 的 项 目 提供 了 一 个 高 度 并 行 化 的 SAC 算法 ， 它 使 有 


多 GPU 计算 的 任务 。 由 于 多 进程 的 内 存 之 间 互 相 不 共享 ， 


训练 





工作 者 GHE CPU 核 0) 

a 
(智能 体 片 =( 环境 】 
工作 者 (进程 : cPU 核 1) 


(tetti). "( 环境 】 


























GPU M 
工作 者 (进程 : CPU 核 N) 


(setti). CTS ) 











经 验 回放 缓存 











一 个 离线 策略 深度 强化 学 习 的 并 行 训练 架构 。 每 个 工作 者 包含 一 个 与 环境 交互 的 智能 

































































网 络 和 参数 更 新 由 
实践 中 ， 尽 管 每 个 工作 者 包含 一 个 智能 体 ， 但 是 智能 体内 
























































忆 此 实际 上 只 保留 了 一 套 网 络 〈 用 于 一 个 智能 体 的 )。PyTorch 





























ZN 
























































多 个 进程 更 新 共享 内 存 中 网 络 参数 的 情况 。 由 于 Adam 优化 器 在 训练 ! 
ShareParameters() 函数 来 在 多 进程 中 共享 这 些 值 : 









































日 上 述 架 构 来 解决 这 个 需要 多 进程 和 














需要 用 特殊 的 模块 来 处 理 信息 交流 和 
参数 共享 。 在 代码 中 ， 回 放 缓冲 区 通过 Python 内 的 multiprocessing 模块 共享 ， 训 练 过 程 中 的 















































PyTorch 的 multiprocessing 模块 共享 (在 Linux 系统 上 )。 
的 网 络 实际 在 多 个 工作 者 间 共 享 ， 
的 nn.Module 模块 可 以 处 理 使 用 





























也 有 一 些 统计 量 ， 我 们 使 











def ShareParameters(adamoptim): 


# KF 


for 


便于 实现 多 进程 





Adam 优化 器 的 


group in adamoptim.param_groups: 


for p in group[’params’]: 


state = adamoptim.state[p] 


# 初始 化 : 需要 在 这 里 初始 化 ， 否 则 无 法 找到 相应 量 


state[’step’] = 0 
state[’exp_avg’] = torch.zeros_like(p.data) 


state[’exp_avg_sq’] = torch.zeros_like(p.data) 


# 在 内 存 中 共享 
state['exp avg'].share memory () 


state['exp avg sq'].share memory () 
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在 训练 函数 中 ， 我 们 用 以 下 方式 设置 SAC 算法 中 的 共享 模块 ， 包 括 网 络 和 优化 器 : 














# 共享 网 络 
sac_trainer.soft_q_net1.share_memory () 
sac trainer.soft q net2.share memory() 
sac trainer.target soft q netl.share memory() 
sac trainer.target soft. q net2.share memory() 
Sac trainer.policy net.share memory() 
# AFRESH 





ShareParameters(sac trainer.soft q optimizerl) 
ShareParameters(sac trainer.soft q optimizer2) 
ShareParameters(sac trainer.policy optimizer) 


ShareParameters(sac trainer.alpha optimizer) 









































share memory( 是 一 个 继承 自 PyTorch 的 nn.Module 模块 的 函数 ， 可 用 于 共享 神经 网 络 。 
我 们 也 可 以 共享 炉 因子 ， 但 是 在 这 个 代码 里 没有 实现 它 。“forkserver” 启 动 方法 是 在 Python 3 中 
使 用 CUDA 子 进程 所 需 的 ， 如 代码 中 所 示 : 


































































































torch.multiprocessing.set start method('forkserver', force=True) 
































Iz] 








放 组 冲 区 可 以 用 Python 的 multiprocessing 模块 共享 : 





from multiprocessing.managers import BaseManager 


replay buffer size = 1e6 
BaseManager.register('ReplayBuffer', ReplayBuffer) 
manager - BaseManager() 

manager.start() 


replay- buffer = manager. ACRI EN ep CE size) 





# 通过 manager 来 共享 





























在 克隆 下 来 的 文件 夹 中 运行 以 下 命令 来 开始 训练 〈 注 意 ， 由 于 使 用 “forkserver” 启 动 方法 ， 
所 以 在 Windows 10 上 无 法 进行 这 样 的 并 行 训 练 ): 



































python sac_learn.py --train 








我 们 也 可 用 以 下 命令 测试 训练 的 模型 : 





python sac_learn.py --test 
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13.2.2 ”小 技巧 






































然而 ， 即 便 使 用 了 上 面 的 并 行 架 构 ， 我 们 仍旧 不 能 在 这 个 任务 上 取得 很 好 的 表现 。 由 于 任务 
的 复杂 性 和 深度 学 习 模 型 的 非 线性 ， 损 失 函 数 上 的 局 部 最 优 和 非 平滑 甚至 不 可 微 的 曲面 都 容易 使 
优化 过 程 陷入 困境 (对 于 策略 或 价值 函数 )。 在 使 用 深度 强化 学 习 方法 的 过 程 中 经 常 需要 一 些微 
调 策略 ， 尤 其 是 对 像 Learning to Run 这 样 的 复杂 任务 。 所 以 ， 下 面 介 绍 我 们 使 用 的 一 些小 技 




































































































































































巧 ， 来 更 高 效 和 稳定 地 解决 这 个 任务 。 























奖励 值 缩放 : 奖励 值 缩 放 遵循 一 般 的 值 缩放 规则 ， 即 将 奖励 值 除 以 训练 过 程 中 所 采 批 样本 
的 标准 差 。 奖 励 值 缩放 ， 或 叫 标准 化 和 归 一 化 ， 是 强化 学 习 中 使 训练 过 程 稳定 而 加 速 收敛 
速度 的 常用 技术 手段 。 如 SAC 算法 后 续 的 一 篇 文章 (Haarnoja et al., 2018) 所 报道 的 ， 最 大 
炉 强 化 学 习 算法 可 能 对 奖励 函数 的 缩放 敏感 ,这 不 同 于 其 他 传统 强化 学 习 算 法 。 因 此 , SAC 
算法 的 作者 添加 了 一 个 基于 梯度 的 温度 调 校 模块 用 作 灶 正 则 化 项 ， 这 显著 缓解 了 实践 中 超 
参数 微调 过 程 的 困难 。 

指数 线性 单元 (Exponential Linear Unit, ELU) (Clevert et al., 2015) 激活 函数 被 用 以 替代 
整流 线性 单元 (Rectified Linear Unit, ReLU) (Agarap, 2018): 为 了 得 到 更 快 的 学 习 过 程 和 
更 好 的 泛 化 表现 ， 我 们 使 用 ELU 作为 策略 网 络 隐藏 层 的 激活 函数 。ELU 函数 定义 如 下 : 


£, ifr0 
-| (13.1) 


aexp(r—1), ifa <0 













































































































































































ELU 和 ReLU 的 对 比如 图 13.4 所 示 。 相 比 于 ReLU，ELU 有 负数 值 ， 这 使 得 它 能 够 将 神经 单 
元 激活 的 平均 值 拉 至 更 接近 0 的 位 置 ， 如 同 批 标准 化 ， 但 是 却 有 着 更 低 的 计算 复杂 度 。 均 
值 移动 到 趋 于 0 可 以 加 速 学 习 ， 因 为 它 通 过 减少 神经 单元 激发 造成 的 移动 偏差 ， 使 得 一 般 
的 梯度 更 加 接近 于 神经 网 络 单元 的 自然 梯度 。 

层 标准 化 : 我 们 也 对 价值 网 络 和 策略 网 络 的 每 个 隐藏 层 使 用 层 标 准 化 (Ba et al., 2016)。 相 比 
于 批 标准 化 〈Batch Normalization) ， 层 标准 化 对 单个 训练 样本 在 某 神经 网 络 层 上 的 神经 元 
的 累加 输入 计算 均值 和 方差 来 进行 标准 化 。 每 个 神经 元 有 其 与 众 不 同 的 适应 性 偏差 (Bias) 
和 增益 〈Gain)， 这 些 值 在 标准 化 之 后 和 非 线性 激活 之 前 被 添加 到 神经 元 的 值 上 。 这 种 方法 
在 实际 中 可 以 帮助 加 速 训练 过 程 。 
动作 重复 : 我 们 在 训练 过 程 中 使 用 一 个 常见 的 技巧 叫 动作 重复 〈 或 叫 跳 帧 )， 来 加 速 训 练 的 
执行 时 间 (Wall-Clock Time) 。DQN 原文 中 使 用 跳 帧 和 像素 级 的 最 大 化 〈Max) 算 子 来 实 
现在 Atari 2600 游戏 上 基于 图 像 的 学 习 。 如 果 我 们 定义 单个 帧 的 原始 观察 量 是 o HP i 
表示 帧 指标 ， 原 始 DON 文章 中 的 输入 是 4 个 堆 释 帧 ， 其 中 每 个 是 两 个 连续 帧 中 的 最 大 值 ， 
BY [max(0;_1, 0;),max(0;+3, 0444), max(0i47,0i48),， max(0i411;0i4+12)]， 对 应 的 跳 帧 率 就 是 


4 实际 上 ， 对 于 不 同 游戏 ， 该 跳 帧 率 可 以 是 2,3 或 4)。 在 这 些 跳 过 的 帧 中 ， 动 作 被 重复 执 
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— ReLu 
ELU, alpha=1.0 
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图 13.4 对 比 ReLU 和 ELU 激活 函数 。ELU 在 零点 可 微 























行 。 最 大 化 算 子 在 图 像 观察 量 上 按 像素 计算 ， 奖 励 函数 对 所 有 跳 过 和 不 跳 过 的 帧 累加 。 原 
& DON 中 的 跳 帧 机 制 增加 了 随机 性 ， 同 时 加 速 了 采样 率 。 然 而 ， 在 我 们 的 任务 中 ， 我 们 使 
用 一 种 不 同 的 设置 ， 不 使 用 最 大 化 算 子 和 堆 蚕 帧 ， 每 个 动作 在 跳 过 的 帧 上 进行 简单 的 重复 
执行 ， 包 括 跳 过 帧 和 未 跳 过 帧 在 内 的 所 有 样本 被 存 入 回放 缓冲 区 。 实 践 中 ， 我 们 使 用 3 作 
为 动作 重复 率 ， 减 少 了 策略 与 环境 交互 所 需 的 正 向 推理 时 间 。 

- 更 新 重复 ;我 们 也 在 训练 中 使 用 一 个 小 的 学 习 率 并 重复 更 新 策略 的 技巧 ， 从 而 策略 以 重 
率 3 在 同一 个 批 样本 上 进行 学 习 。 
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13.2.3 学 习 结 果 


通过 以 上 设置 和 SAC 算法 上 的 这 些小 技巧 ， 智 能 体能 够 在 3 天 的 训练 时 长 下 学 会 用 人 类 的 
方式 奔跑 很 长 的 一 段 距离 ， 训 练 是 在 一 个 4GPU 和 56CPU 的 服务 器 上 进行 的 ， 结 果 如 图 13.5 所 
示 。 图 13.6 展示 了 学 习 曲 线 , 包括 原始 的 奖励 函数 值 和 移动 平均 的 平滑 曲线 ,呈现 了 上 升 的 学 习 
表现 。 纵 轴 是 一 个 片段 内 的 累计 奖励 值 ， 显 示 了 智能 体 奔跑 的 距离 和 姿势 状况 。 
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鲁 棒 的 图 像 增强 























深度 生成 模型 相 较 于 经 典 的 算法 ， 在 超 分 辩 率 、 图 像 分 割 等 计算 机 视觉 任务 中 ， 取 得 了 显著 
的 进展 。 然 而 ， 这 种 基于 学 习 的 方法 缺乏 鲁 棒 性 和 可 解释 性 ， 限 制 了 它们 在 现实 世界 中 的 应 用 。 
本 章 将 讨论 一 种 鲁 棒 的 图 像 增强 方法 ， 它 可 以 通过 深度 强化 学 习 与 许多 可 解释 的 技术 进行 结合 。 
我 们 将 先 从 一 些 图 像 增强 的 背景 知识 进行 介绍 ,接着 将 图 像 增 强 的 过 程 看 作 一 个 由 马尔 可 夫 决 策 
过 程 (Markov Decision Process, MDP) 建 模 的 处 理 流 程 。 最 后 ， 我 们 将 展示 如 何 通过 近 端 策略 优 
化 〈Proximal Policy Optimization, PPO) 算法 构建 智能 体 来 处 理 这 个 MDP 过 程 。 实 验 环境 由 一 
个 真实 世界 的 数据 集 构建 ， 包 含 5000 张 照片 ， 其 中 包括 原始 图 像 和 专家 调整 后 的 版 本 。 项 目 代 
码 链 接见 读者 服务 。 







































































































































































14. ”图像 增强 


图 像 增强 技术 属于 图 像 处 理 技 术 。 它 的 主要 目标 是 使 处 理 后 的 图 像 更 适合 各 种 应 用 的 需要 
典型 的 图 像 增强 技术 包括 去 品 、 去 模糊 和 亮度 改善 。 现 实 世界 中 的 图 像 总 是 需要 多 种 图 像 增 强 技 
AR. Bd 14.1 显示 了 一 个 包括 亮度 改善 和 去 噪 的 图 像 增强 流程 。 专 业 的 照片 编辑 软件 ， 如 Adobe 
Photoshop， 提 供 强大 的 修 图 能 力 ， 但 效率 不 高 ， 需 要 用 户 在 照片 编辑 方面 具备 专业 知识 。 在 诸 
如 推荐 系统 这 样 的 大 规模 场景 中 ， 图 像 的 主观 质量 对 用 户 体验 至 关 重 要 ， 因 此 需要 一 种 满足 有 效 
性 、 和 鲁 棒 性 和 效率 的 自动 图 像 增强 方法 。 其 中 和 鲁 棒 性 是 最 重要 的 条 件 ， 尤 其 是 在 用 户 生 成 内 容 的 
平台 上 ， 比 如 Facebook 和 Twitter， 即 使 1% 的 较 差 情况 (Bad Case) 也 会 伤害 数 百 万 用 户 的 使 用 
体验 。 

与 图 像 分 类 或 分 割 有 着 其 独特 的 真实 值 (Ground Truth) 不 同 ， 图 像 增 强 的 训练 数据 依赖 于 
人 类 专家 。 因 此 ， 图 像 增强 并 没有 大 规模 的 公共 图 像 增强 数据 集 。 经 典 的 图 像 增强 方法 主要 基于 
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14.1 图 像 增强 












































图 14.1 一 个 图 像 增强 流程 的 案例 。 左 侧 的 原始 图 像 存在 JPEG H 




















FE 缩 噪声 并 且 曝 光 不 足 ( 见 彩 插 ) 


的 是 伽 马 校正 和 直方 图 均衡 化 ， 以 及 先 验 的 专家 知识 。 这 些 方法 也 不 需要 大 量 的 数据 。 伽 马 校正 


利用 了 人 类 感知 的 非 线性 ， 比 如 ， 我 们 感知 光 和 颜色 的 能 力 。 直 方 图 均衡 化 实现 了 人 允许 局 部 对 比 



































度 较 低 的 区 域 获得 更 高 的 对 比 度 ， 以 更 好 地 分 布 在 像素 直方 图 上 的 思想 ， 这 在 背景 和 前 景 为 全 亮 








RER Cn X 射线 图 像 ) 时 非常 有 用 。 这 些 方法 虽然 快速 、 简 单 , 但 


























限制 了 它们 的 应 用 。 
































最 近 , 有 学 者 使 用 基于 学 习 的 方法 , 试图 用 CNN 拟 合 从 输入 





















































图 像 到 所 需 像素 值 的 映射 , 并 取 


是 缺乏 对 上 下 文 信息 的 考虑 ， 














得 了 很 大 的 成 功 (Bychkovsky et al., 2011; Kupyn et al., 2018; Ulyanov et al., 2018; Wang et al., 2019). 





然而 ， 这 种 方法 也 存在 问题 。 首 先 ， 很 难 训练 出 一 个 能 处 到 











多 种 增强 情况 的 综合 神经 网 络 。 此 外 ， 





























像素 到 像素 的 映射 缺乏 鲁 棒 性 ， 例 如 ， 在 处 理 诸如 头发 和 字符 等 细节 信息 时 ， 它 的 表现 不 是 很 























好 (Nataraj et al., 2019; Zhang et al., 2019)。 一 些 研 究 




















首 提出 ， 将 深度 强化 学 习 应 用 于 图 像 增强 ， 将 

















增强 过 程 描述 为 一 系列 策略 迭代 问题 ， 以 解决 上 述 问题 。 在 本 章 中 ， 我 们 遵循 这 些 方法 ， 并 提出 
包含 5000 对 图 像 的 数据 集 上 用 代码 示例 演示 


一 种 新 的 MDP 公式 来 进行 图 像 增强 。 我 们 在 一 个 
了 我 们 的 方法 ， 以 提供 快速 的 实际 学 习 过 程 。 





























在 讨论 算法 之 前 , 我 们 先 介绍 两 个 Python 库 : Pillow (Clark, 2015) 和 scikit-image (Van der Walt 

















et aL, 2014)。 它 们 提供 了 许多 友好 的 接口 来 实现 图 


它们 : 

















像 增强 。 可 以 使 ) 





] 如 下 代码 直接 从 PyPI 安装 





pip install Pillow 


pip install scikit-image 








下 














fila Pillow 的 子 模块 ImageEnhance 调整 对 比 度 的 示例 代码 。 





from PIL import ImageEnhance 


def adjust_contrast(image_rgb, contrast_factor): 


# 调整 对 比 度 
# BR: 


# image_rgb (PIL.Image): RGB 图 像 
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# contrast_factor (float): 


# KE: 


# PIL 
# 


.Image 对 象 


闫 色 平衡 因子 范围 从 9 到 1. 


enhancer = ImageEnhance.Contrast (image. rgb) 


return enhancer.enhance(contrast factor) 





14.2 ”用 于 鲁 棒 处 理 的 强化 学 习 

















图 
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Park et al. 


在 将 强化 学 习 应 用 
自然 出 现 的 想法 是 将 像素 处 理 为 状态 ， 将 不同 的 
了 几 种 可 控 的 初级 增强 算法 的 组 合 方法 ， 以 获 
基于 强化 学 习 的 颜色 增强 方法 。 为 了 简单 起 见 ， 我 们 
区 域 候 选 模 块 (Ren et al., 2015) 来 适应 一 般 的 增强 算法 
假设 训练 集 包 含 N 对 RGB 图 像 {(1;, hi) > 
像 。 为 了 保持 数据 分 布 ， 初 始 状态 So 应 从 (LN, | 
定义 对 动作 ， 如 调整 对 比 度 ， 再 将 它 应 用 
全 决定 了 状态 转移 。 也 就 是 说 ,环境 没有 不 确定 性 。 我 们 在 之 前 了] 


,2018) 上 继续 看 了 CIELAB 颜色 空 | 
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究 ， 并 使 用 
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fi 
得 稳健 、 




















有 效 的 结果 。 


只 采取 全 局 增强 操作 。 值 得 


图 像 增强 时 ， 首 先 需要 考虑 如 何 构造 该 领域 的 马尔 可 夫 决 策 过 程 
增强 技术 视 为 强化 学 习 的 动作 。 
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4 为 低 质量 原始 


EAT, RADY 


然 的 想法 。 





才 论 这 种 


通过 
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图 像 ，h; 是 高 质量 修复 

















均匀 采样 。 在 每 步 中 ， 
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1 状态 。 
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需要 注意 的 是 ， 

















智能 体会 执行 一 个 
状态 和 选择 动作 完 





ji 














司 作为 转移 奖 


IL(h) = L(59)0l — ILA) 一 二 Sol 


[ 作 的 基础 上 (Furuta et al., 2019; 
励 函 数 。 


(14.1) 


Kh AX VN BREA So LÆ RGB 颜色 空间 到 CIELAB 颜色 空间 到 映射 。 








另 一 个 重点 是 定义 学 习 和 评估 时 的 








境 决 定 。 


2018) #éH 


而 与 此 不 











Learning 中 由 函数 近似 引 


明确 的 策略 并 增加 一 个 有 
定义 的 动 

AER 
状态 


的 ResNet50 网 络 中 的 最 后 一 层 卷 积 层 
可 以 提升 许多 其 他 视觉 识别 任务 的 效果 (Redmon et al., 2016; Ren et al., 
et al., 2005; Park et al., 2018) 的 启发 ， 我 们 在 构造 观测 信息 时 进一步 考虑 使 用 直方 





司 的 是 ， 在 
了 一 个 基于 DON 的 智能 体 ， 它 在 所 有 动作 预测 的 Q 值 都 为 负数 时 会 退出 。 然 而 ，Q- 


起 的 过 降低 。 我 们 通过 训练 





图 像 增强 ， 
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状态 。 在 游戏 的 强化 学 习 应 用 
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状态 可 以 由 环 
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占 计 问 题 可 
8 选择 的 “无 操作 ” 习 
乍 ， 其 中 索引 为 0 的 动作 表示 “ 


的 智能 体 需 要 











能 会 导致 


TERI 


由 自己 决定 退出 




















过 程 的 鲁 棒 性 














操作 ”动作 。 
































F 始 训练 一 个 卷 积 神经 网 络 需 要 大 量 的 原始 -修复 
芷 为 观测 值 的 方案 ， 而 是 考虑 使 ) 
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时 机 。 文 献 (Park et al., 
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) 作 来 处 理 这 个 问题 。 





图 像 对 。 医 




















层 特 和 





EA A 。 这 样 下 
20 











此 ， 我 们 不 使 
JÆ ILSVRC 分 类 数据 集 (Russakovsky et al., 2015) 上 预 训练 
的 激活 值 作为 深 





K 14.1 列 出 了 所 有 预 























原始 


图 像 








GH 个 


的 深层 特征 十 分 重要 , € 
16)。 受 到 前 人 工作 (Lee 


















































图 信息 。 具 体 来 

















说 ,我 们 计算 了 RGB 颜色 空间 在 (0, 255), (0, 255), (0,255) 范围 内 和 CIELab 颜色 空间 在 (0, 100), 
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围 内 的 统计 信息 。 





(—60, 60), (—60, 60) 范 























列 任务 上 已 经 取得 了 显著 的 成 果 。 








Be (Actor) 网 络 和 1 层 批 判 者 (Critic) 网 络 。 所 有 





这 三 个 特征 连 

















的 输出 分 别 为 2048、512 和 128 MÀ 
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并 都 使 
































层 都 是 全 连 








我 们 在 MIT-Adobe FiveK (Bychkovsky et al., 2011) 数据 集 上 对 3 





包括 5000 张 原始 图 像 ， 而 每 张 原始 














的 工作 (Park et al., 2018; Wang et al., 2019) 之 后 , 我 们 只 














































































































图 像 又 有 5 个 不 同 专家 (A/B/C 


成 2048 + 2000 维 
们 选择 PPO (Schulman et al., 2017) 作为 策略 优化 算法 。PPO 是 一 种 Actor-Critic 
蕊 的 网 络 由 3 部 分 组 成 : 3 层 特 
接 的 ， 其 中 特征 
1f ReLU 作为 激活 函数 。 





。 接 着 ， 我 





的 观测 信息 

















t | 


网 络 、 
Ee 


征 抽取 作为 主 了 





























算法 ， 它 在 一 系 


1 层 行 
中 各 层 


























我 们 的 方法 进行 
/D/E) 修复 后 的 图 像 。 
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专家 C 

















侈 复 的 图 










































































张 图 像 进行 训练 ， 剩 下 的 500 张 图 像 用 于 测试 。 原 始 图 像 是 DNG 格式 的 ， 而 修复 图 
式 的 。 我 们 使 用 Adobe Lightroom 将 它们 都 转换 为 质量 为 100、 颜 色 空 
为 了 更 有 效 地 训练 ， 我 们 也 调整 了 图 像 大 小 ， 使 得 每 张 图 像 的 最 大 边 为 512 像素 。 
ER 14.2 中 列 出 。 
表 14.2 用 于 图 像 增 强 的 PPO 起 参数 
优化 器 每 次 迭代 的 优化 数 
学 习 率 Ig RT 
梯度 范 数 裁剪 AAF 
GAE À 奖励 缩放 
每 次 迭代 的 片段 数 y 
接 下 来 开始 ， 我 们 将 演示 如 何 实现 上 述 算 法 ， 首 先 需要 构建 一 个 环境 对 象 。 























了 评估 。 








继 之 前 


像 ， 并 随机 选择 4500 
BFE TIFF 格 
x 间 为 sRGB 的 JPEG 格式 。 
LUKITTER 





class Env(object): 
# 训练 环境 
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def __init__(self, src, max_episode_length=20, reward_scale=0.1): 
# BR: 
# src (list[str, str]): JE 





# max episode length (int): 
self. src - src 

self. backbone - backbone 
self. preprocess - preprocess 

self. rgb state - None 

self. lab state - None 

self. target lab = None 

self. current diff - None 

self. count = 0 

self. max episode length = max. episode. length 
self. reward scale - reward scale 

self. info = dictQ) 














Tar 








通过 使 用 TensorFlow 的 ResNet API, 我 们 可 以 通过 | state. feature K ZUA $830 2503) 
程 如 下 所 示 : 








i 





backbone = tf.keras.applications.ResNet50 (include top-False, pooling=’avg’) 


preprocess = tf.keras.applications.resnet50.preprocess. input 


def get. lab hist(lab): 





# 获取 Lab 的 直 
lab = lab.reshape(-1, 3) 
hist, _ = np.histogramdd(lab, bins=(10, 10, 10), 


range=((0, 100), (-60, 60), (-68, 60))) 
return hist.reshape(1, 1000) / 1000.0 


def get_rgb_hist(rgb): 
# 获取 RGB A 方 图 





rgb = rgb.reshape(-1, 3) 
hist, _ = np.histogramdd(rgb, bins=(10, 10, 10), 

range-((8, 255), (8, 255), (8, 255))) 
return hist.reshape(1, 1000) / 1000.0 


def _state_feature(self): 


s = self._preprocess(self._rgb_state) 
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s = tf.expand_dims(s, axis=0) 

context = self._backbone(s) .numpyQ .astype(’ float32’) 
hist_rgb = get rgb hist(self. rgb state).astype('float32') 
hist lab = get lab hist(self. lab state).astype('float32') 


return np.concatenate([context, hist rgb, hist lab], 1) 











接着 ， 我 们 构建 和 OpenAI Gym (Brockman et al., 2016) 相同 的 接口 。 其 中 ， 我 们 按照 表 14.1 





定义 转移 函数 _transit， 并 依据 公式 (14.1) 构建 奖励 函数 _reward. 





def step(self, action): 
# 执行 单 步 
self._count += 1 
self._rgb_state = self._transit(action) 
self._lab_state = rgb2lab(self._rgb_state) 
reward = self._reward() 
done = self._count >= self._max_episode_length or action == 0 


return self._state_feature(), reward, done, self._info 


def reset(self): 
# 1 环境 








self._count = 0 

raw, retouched = map(Image.open, random.choice(self._src)) 
self._rgb_state = np.asarray(raw) 

self._lab_state = rgb2lab(self._rgb_state) 

self. target lab = rgb2lab(np.asarray(retouched) ) 
self._current_diff = self._diff(self._lab_state) 
self._info[’max_reward’] = self._current_diff 


return self._state_feature() 











这 里 的 PPO 与 5.10.6 节 实 现 有 所 不 同 。 我 们 将 PPO (Schulman et al., 2017) 算法 用 于 离散 动 

















作 情 况 。 需 要 注意 的 是 ， 我 们 将 LogSoftmax 作为 行动 者 网 络 的 激活 函数 ， 这 样 能 在 计算 


























代目 




















标 时 提供 更 好 的 数值 稳定 性 。 对 PPO 智能 体 ， 我 们 先 定义 它 的 初始 化 函数 和 行为 函数 : 














class Agent(object): 
# PPO 智能 体 


def __init__(self, feature, actor, critic, optimizer, 








P 1 


At 





epsilon=0.1, gamma=0.95, cl=1.0, c2-1e-4, gae_lambda=0.95): 
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A, 


actor (tf.keras.Model): 行动 
critic (tf.keras.Model): 批判 者 网 络 





optimizer (tf.keras.optimizers.Optimizer): 优化 器 
果 作 中 的 epsilon 

1 折扣 

cl (float): 价值 损失 系数 

c2 (float): EX 


self.feature, self.actor, self.critic - feature, actor, critic 


epsilon (float): RFH 








gamma (float): X Jg 


+ H+ E HH H H H 


self.optimizer = optimizer 


self._epsilon = epsilon 
self.gamma = gamma 

self._cl = c1 

self._c2 = c2 
self.gae_lambda = gae_lambda 


def act(self, state, greedy=False): 
BR: 
state (numpy.array): 1 * 4048 维 的 状态 


greedy (bool): 是 否 要 选取 贪心 动作 


action (int): 所 选择 的 动作 
生动 作 的 概率 对 数 


态 的 价值 


E 





logprob (float): 所 选 动 4 
大 


feature = self.feature(state) 







# 
# 
# 
# Returns: 
# 
# 
# 


value (float): 当前 4 


logprob = self.actor(feature) 
if greedy: 
action = tf.argmax(logprob[98]) .numpy © 
return action, 0, 6 
else: 
value - self.critic(feature) 
logprob = logprob[Q] .numpy() 
action - np.random.choice(range(len(logprob)), p-np.exp(logprob)) 


return action, logprob[action], value.numpy()[0, 0] 
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[> 
ct 
SH 








在 采样 过 程 中 ， 我 们 通过 GAE (Schulman et al., 2015) 算法 记录 轨迹 。 

















def sample(self, env, sample_episodes, greedy=False): 








# greedy (bool): 
trajectories = [] # s, a, r, logp 
e_reward = 0 
e_reward_max = 0 
for _ in range(sample_episodes): 
S = env.reset() 
values - [] 
while True: 
a, logp, v = self.act(s, greedy) 
s_, r, done, info = env.step(a) 
e reward += r 
values.append(v) 
trajectories.append([s, a, r, logp, v]) 
S=S_ 
if done: 
e reward max += info['max reward'] 
break 
episode len - len(values) 
gae - np.empty(episode len) 
reward - trajectories[-1][2] 
gae[-1] = last gae = reward - values[-1] 
for i in range(1, episode len): 
reward = trajectories[-i - 1][2] 
delta = reward + self.gamma * values[-i] - values[-i - 1] 
gae[-i - 1] = last_gae = \ 
delta + self.gamma * self.gae_lambda * last_gae 
for i in range(episode_len): 
trajectories[-(episode_len - i)][2] = gae[i] + values[i] 
e_reward /= sample_episodes 
e_reward_max /= sample_episodes 


return trajectories, e_reward, e_reward_max 
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最 后 ， 策 略 优化 的 部 分 如 下 所 示 ， 其 中 价值 损失 裁剪 和 优势 标准 





2017) 的 描述 。 





化 遵循 文献 (Dhariwal et al., 




















def _train_func(self, b_s, b_a, b_r, b_logp_old, b_v_old): 
# 训练 函 





all_params = self.feature.trainable_weights + \ 
self.actor.trainable_weights + \ 
self.critic.trainable_weights 
with tf.GradientTape() as tape: 
b feature = self. feature(b_s) 


b_logp, b_v = self.actor(b_feature), self.critic(b_feature) 


entropy = -tf.reduce mean( 
tf.reduce_sum(b_logp * tf.exp(b_logp), axis=-1)) 


b_logp = tf.gather(b_logp, b_a, axis=-1, batch_dims=1) 


adv = b r - b. v. old 


adv = (adv - tf.reduce mean(adv)) / (tf.math.reduce std(adv) + 1e-8) 


c_b_v = b_v_old + tf.clip by value(b v - b. v. old, 





-self. epsilon, self. epsilon) 


vloss = 0.5 * tf.reduce max(tf.stack( 


[tf.pow(b v - b r, 2), tf£.pow(c_b_v - b r, 2)], axis=1), axis=1) 


vloss - tf.reduce mean(vloss) 


ratio = tf.exp(b_logp - b. logp old) 
clipped ratio = tf.clip by valueC 
ratio, 1 - self. epsilon, 1 + self. epsilon) 


pgloss = -tf.reduce mean(tf.reduce min(tf.stack( 


[clipped ratio * adv, ratio * adv], axis-1), axis-1)) 


total loss = pgloss + self. cl * vloss - self. c2 * 
grad - tape.gradient(total loss, all params) 
self.optimizer.apply. gradients(zip(grad, all params)) 


return entropy 





def optimize(self, trajectories, opt iter): 


# 基于 给 定 轨 


行 优化 


b_s, b a, b_r, b_logp_old, b. v. old = zip(*trajectories) 
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b_s = np.concatenate(b s, 0) 
b_a = np.expand dims(np.array(b a, np.int64), 1) 
b .r = np.expand dims(np.array(b r, np.float32), 1) 
b. logp. old = np.expand dims(np.array(b. logp. old, np.float32), 1) 
b. v. old = np.expand dims(np.array(b. v old, np.float32), 1) 
b.s, b. a, b. r, b. logp old, b. v old = map( 
tf.convert to tensor, [b s, b a, b. r, b logp old, b v. old]) 








for _ in range(opt iter): 


entropy = self. train func(b s, b a, b r, b logp old, b v. old) 





return entropy.numpy() 












































最 终 经 过 训练 后 ， 智 能 体 学 到 了 图 像 增强 的 策略 。 图 14.2 展示 了 一 个 训练 效果 样 例 。 


























原始 图 像 本 音效 果 专家 数据 


图 142 一 个 在 MIT-Adobe FiveK 数据 集 上 使 用 全 局 增强 的 效果 样 例 。 当 右上 角 的 天 空 等 区 域 需 
局 部 增强 时 ， 全 局 亮度 会 增加 ( 见 彩 插 ) 
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AlphaZero 






































本 章 首 先 介绍 组 合 博弈 问题 〈 如 象棋 、 围 棋 等 ) 的 概念 ， 然 后 以 五 子 棋 为 例 介 绍 AlphaZero 
算法 。AlphaZero 算法 作为 棋 类 问题 的 通用 算法 ， 在 许多 挑战 巨大 的 棋 类 游戏 中 都 取得 了 超越 人 
类 的 表现 ， 例 如 围棋 、 国 际 象棋 、 日 本 将 棋 等 。 该 算法 结合 蒙特 卡 罗 树 搜索 和 深度 强化 学 习 自 博 
弈 ， 是 人 工 智 能 史上 的 标志 性 算法 。 本 章 分 为 三 个 部 分 : 第 一 部 分 介绍 组 合 博 弃 的 概念 ， 第 二 部 
分 介绍 蒙特 卡 罗 树 搜索 算法 ; 第 三 部 分 以 五 子 棋 为 例 ， 详 细 介 绍 AlphaZero 算法 。 
















































































































































































15. 简介 











AlphaGo Zero (Silver et al., 2017b) 算法 在 围棋 中 取得 了 超越 人 类 冠军 的 表现 , AlphaZero (Silver 
et al., 2017a, 2018) 算法 是 AlphaGo Zero 的 通用 版 本 。 相 比 最 初 击败 人 类 选手 的 AlphaGo (Silver 
et al., 2016) 系列 算法 AlphaGo Fan (击败 Fan Hui), AlphaGo Lee (击败 Lee Sedol) 和 AlphaGo 
Master〈 击 败 柯 洁 )，AlphaZero 算法 完全 基于 自 博 认 (Self-Play〉 的 强化 学 习 从 零 开 始 提 升 。 它 
没有 利用 人 类 专家 数据 进行 监督 学 习 ， 而 是 直接 从 随机 动作 选择 开始 探索 。AlphaZero 有 两 个 关 
键 部 分 : (1) 在 自 博 弈 中 使 用 蒙特 卡 罗 树 搜索 来 收集 数据 ; (2) 使 用 深度 神经 网 络 拟 合 数据 ， 并 
在 树 搜索 过 程 中 用 于 动作 概率 和 状态 价值 估计 。 该 算法 不 仅 适用 于 围棋 ， 还 在 国际 象棋 和 日 本 将 
棋 中 击败 了 世界 冠军 程序 ， 证 明了 该 算法 的 通用 性 。 本 章 首先 介绍 组 合 博弈 〈 包 括 围棋 、 国 际 象 
棋 、 五 子 棋 等 ) 的 概念 ， 并 给 出 无 禁 手 五 子 棋 的 代码 ;然后 介绍 蒙特 卡 罗 树 搜索 的 具体 步骤 最 
后 以 五 子 棋 为 游戏 环境 演示 AlphaZero 算法 的 具体 细节 。 为 了 帮助 读者 理解 ， 我 们 提供 了 五 子 棋 
游戏 和 AlphaZero 算法 的 代码 链接 见 读者 服务 。 
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15.2. HERZ 


组 合 博弈 理论 (CGT) (Albert et al., 2007) A MCT ALES 72) Sc. ISTE TTL, 
有 完美 信息 (Perfect Information) 的 序列 化 游戏 。 这 类 游戏 通常 具有 以 下 特点 : 
。 游戏 通常 包含 两 个 玩家 《如 围棋 、 象 棋 )。 有 时 只 包含 一 个 玩家 的 游戏 〈 如 数 独 、 纸 牌 ) 也 
以 看 成 游戏 设计 者 和 玩家 之 间 的 组 合 博弈 。 包 含 两 个 以 上 玩家 的 游戏 不 被 视 为 组 合 博弈 
题 ， 因 为 游戏 中 会 出 现 合作 等 更 加 复杂 的 博弈 问题 (Browne et al., 2012). 
游戏 不 包含 任何 影响 游戏 结果 的 随机 性 因素 (Chance Factor), Zo s 
游戏 给 玩家 提供 完美 信息 (Muthoo et aL, 1996)， 这 意味 着 每 个 玩家 都 完全 了 解 之 前 发 生 的 
所 有 事件 。 
。 玩 家 以 回合 制 的 方式 执行 动作 ， 且 动作 空间 和 状态 空间 都 是 有 限 的 。 
游戏 会 在 有 限 步 内 结束 ， 结 果 通 常 为 输赢 ， 有 些 游戏 有 平局 情况 。 
千 多 组 合 博弈 问题 (Albert et al., 2007)， 包 括 数 独 和 纸牌 等 单 人 游戏 ， 以 及 如 六 连 棋 (Hex)、 
FEE (Go) 和 象棋 〈Chess) 等 双人 游戏 ， 都 是 计算 机 科学 家 需要 解决 的 经 典 问题 。 自 从 IJBM A 
司 的 深蓝 系统 (Campbell et al., 2002; Hsu, 1999) 击败 了 国际 象棋 大 师 Gary Kasparov 之 后 ， 围 棋 成 
为 了 人 工 智 能 的 下 一 个 桥头 煲 。 除 此 之 外 ， 还 有 很 多 其 他 的 游戏 ， 如 黑白 棋 〈Othello)、 亚 马 逊 
棋 (Amazons)、 日 本 将 棋 (Shogi)、 跳 棋 (Chinese Checkers)、 四 子 棋 (Connect Four)、 五 子 棋 
(Gomoku) 等 ， 吸 引 了 一 大 批 人 用 计算 机 来 寻找 解决 方案 。 
介绍 完 组 合 博弈 的 特点 之 后 ， 我 们 以 五 子 棋 为 例 给 出 一 些 代码 细节 。 首 先 从 一 个 空 棋盘 开 
台 ， 当 有 五 个 相同 颜色 的 棋子 连 成 一 条 线 〈 水 平 、 垂 直 或 斜 线 ) 时 ， 即 代表 一 名 玩家 获胜 ， 否 由 
为 平局 。 五 子 棋 有 各 种 各 样 的 规则 ， 最 常见 的 规则 是 无 禁 手 〈Freestyle Gomoku) 规则 或 长 连 禁 如 
(Standard Gomoku) 规则 。 无 禁 手 五 子 棋 只 需要 有 至 少 五 个 子 连 成 一 条 线 即 可 赢得 比赛 。 而 长 连 
禁 手 五 子 棋 需 要 恰好 五 个 子 才 代 表 获 胜 ， 任 何 多 于 五 个 棋子 都 不 算 获胜 。 这 里 我 们 以 无 禁 手 五 子 
棋 作 为 示例 。 
这 里 我 们 进一步 简化 棋盘 大 小 ， 使 用 3 x 3 的 棋盘 作为 示例 。 三 个 棋子 连 成 一 线 即 表示 获胜 
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《我 们 可 以 称 之 为 “三 子 棋 ” 或 井 字 棋 )， 图 15.1 展示 了 在 该 棋盘 上 的 动作 序列 样 例 。 


























图 15.1 3x3 棋 盘 上 的 落 子 序列 示例 。"b” 代 表 “ 黑 方 玩 家 ”",，“w” 代 表 “ 白 方 玩家 ”。(b, 5) 表 
示 黑 方 玩 家 在 位 置 5 处 落 子 。 最 终 黑 方 玩家 获得 了 游戏 胜利 ( 见 彩 插 
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棋盘 上 的 红色 数字 表示 不 同 的 位 置 ， 可 用 于 表示 每 次 动作 的 选择 。 白 色 和 黑色 圆圈 是 两 个 玩 
家 的 棋子 。 游 戏 过 程 可 以 表示 为 一 个 序列 : (b, 5), (w, 4), (6,1), (w, 7), (5,9))， 其 中 “b” 代 表 “ 黑 
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HZ”, ew” 代表 “A 
一 线 ， 这 表明 黑 方 赢得 了 比赛 。 





























FNZ”. WE 








15.1 最 后 一 个 棋盘 状态 所 示 ， 黑 方 玩家 





三 个 棋子 连 成 








































































































回忆 我 们 之 前 提 到 的 定义 ， 这 个 简化 的 五 子 棋 (或 “三 子 棋 

















”) 满 




















足 组 合 博弈 问题 的 所 有 特征 : 游戏 包含 两 个 玩家 ; 游戏 不 包含 任何 随机 因素 ; 游戏 提供 完美 信息 ; 
玩家 以 回合 制 的 方式 执行 动作 ， 游 戏 在 有 限时 间 步 内 结 

这 里 我 们 给 出 无 禁 手 五 子 棋 的 代码 示例 。 

定义 游戏 为 Board 类 ， 并 将 游戏 规则 实现 成 一 些 函 数 。 我 们 之 前 用 简化 的 版 本 介绍 了 五 子 
棋 的 规则 ， 这 里 通过 给 变量 n in row 赋值 为 5 来 定义 一 个 标准 的 五 子 棋 。 














class Board(object): 


# 定义 游戏 的 类 




































def | init (self, width, height, n in row): ... # % |X 

def move_to_location(self, move): ... # 位 置 表示 转换 

def location_to_move(self, location): ... 

def do_move(self, move): ... 每 

def has_a_winner(self): ... 

def current_state(self): ... 

如 图 15.1 所 示 , 棋盘 上 的 每 个 走 子 位 置 都 用 一 个 数字 表示 ,这 样 方便 在 蒙特 卡 罗 树 搜索 过 程 


















































间 的 转换 函数 ， 坐 标 ) 




















建立 树 节 点 。 但 这 种 方式 不 便于 辨认 是 否 有 五 个 棋子 连 成 












































线 。 所 以 我 们 定义 了 坐标 和 数字 之 
j 来 判断 玩家 是 否 有 五 个 棋子 连 成 一 线 ， 数 字 用 来 在 树 搜索 中 建立 树 节点 。 





def move_to_location(self, move): 





# 

# 

# 

# 

# 数字 5 的 坐标 表示 为 (1,2) 
h = move // self.width 

w = move 


return [h, w] 


def location_to_move(self, location): 





# 从 坐标 
if len(location) != 2: 
return -1 


h = location[0] 


w = location[1] 
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move = h * self.width + w 
if move not in range(self.width * self.height): 
return -1 


return move 




















为 了 判断 是 否 有 玩家 获胜 ， 需 要 函数 来 判断 一 行 或 一 列 或 对 角 线 中 是 否 有 五 个 棋子 连 成 


2E. PRA has_a_winner() 如 下 所 示 : 


























l 


7 





def has_a_winner (self): 





， 返 回 是 哪个 玩家 


# FIM REA j 
width = self.width 

height = self.height 

states = self.states 

n = self.n_in_row 

# 棋盘 上 所 有 棋子 的 位 置 

moved = list(set(range(width * height)) - set(self.availables)) 
# 当前 所 有 棋子 数量 不 足以 获胜 

if len(moved) < self.n in row + 2: 


return False, -1 


for m in moved: 
h, w = self.move to location(m) 


player - states[m] 


if (w in range(width - n + 1) and 
len(set(states.get(i, -1) for i in range(m, m+ n))) == 1): 
return True, player 
# 判断 是 否 有 坚 线 
if (h in range(height - n + 1) and 
len(set(states.get(i, -1) for i in range(m, m+n * width, width))) == 


1): 
return True, player 
# 判断 是 否 有 斜 线 





if (w in range(width - n + 1) and h in range(height - n + 1) and 
len(set(states.get(i, -1) for i in range(m, m+n * (width + 1), width 
+ 1))) == 1): 
return True, player 


if (w in range(n - 1, width) and h in range(height - n + 1) and 
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len(set 
- 1 


(states.get(i, -1) for i in range(m, m+n * (width - 1), width 
D) == 1): 


return True, player 


return False, -1 





15.3 ”蒙特 卡 罗 树 搜索 








蒙特 卡 罗 树 搜索 (MCTS) (Browne et al., 2012) 是 一 种 通过 动作 采样 ， 并 根据 结果 建立 搜索 





树 ， 寻 找 在 给 定 空间 中 最 优 决 策 的 方法 。 这 种 方法 在 组 合 博弈 和 规划 问题 方 
响 ， 并 将 围棋 等 AI 算法 的 性 能 推 向 了 前 所 未 有 的 高 度 。 















































产生 了 革命 性 的 影 
































含 由 边 连 接 的 节点 。 一 些 习 




















节点 称 为 根 节点 ; 一 个 节点 对 应 的 上 一 级 节点 称 为 其 父 节点 ， 一 个 节点 对 应 的 下 一 级 节点 称 为 其 





蒙特 卡 罗 树 搜索 主要 包括 两 部 分 : 树 结构 和 搜索 算法 。 树 是 一 种 数据 结构 〈 图 15.2)， 它 包 























要 的 概念 包括 根 节 点 、 父 节点 与 子 节点 、 叶 节点 等 。 树 结构 最 上 方 前 
































子 节点 ; 没有 子 节点 的 节点 称 为 叶 节 点 。 通 常 ， 除 状态 和 动作 外 ， 搜 索 树 中 的 节点 还 存 有 被 访问 





次 数 的 统计 和 奖励 的 估 值 。 





























在 AlphaZero 算法 中 ， 节 点 还 包含 该 状态 对 应 的 动作 概率 分 布 。 

















节点 a 的 
ARE = 


XTR 





节点 a 的 子 节点 


A152 树 结 构 示 意图 

















综 上 
。A: 
e N: 
e W: 
eQ: 
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， 如 图 15.3 所 示 ，AlphaZero 算法 的 搜索 树 中 ， 每 个 节点 包含 以 下 信 ， 























到 达 该 节点 所 需 执行 的 上 一 个 动作 (用 以 索引 其 父 节 点 )。 
节点 被 访问 次 数 。 初 始 值 为 0， 表 示 该 节点 未 被 访问 过 。 
节点 的 奖励 值 之 和 ， 用 以 计算 平均 奖励 。 初 始 值 设 为 0。 























E 


节点 的 平均 奖励 值 ， 通 过 Te 计算 得 到 ， 代 表 该 节点 的 值 函数 估计 。 初 始 值 设 为 0。 


15.3 ”蒙特 卡 罗 树 搜索 





: P: 动作 A 的 选取 概率 。 这 个 值 由 神经 网 络 输 入 其 


于 索引 和 计算 。 





图 15.3 


在 继续 介绍 之 六 





节点 包含 
玩家 ( 

















Bi. RA 




















CLERI 








的 视角 





进行 更 新 。 


| 





例如 ， 在 图 





Action= 5 


^ 





点 的 状态 


了 sj9 


























5 处 有 黑 











。 其 中 位 
“b”) 执行 动作 5 FFB 
Don SR TE. 
未 被 访问 过 


] 先 强调 一 
个 玩家 的 视角 。 节 点 上 的 信息 
15.3 中 ， 此 节点 表示 的 棋盘 ; 

















达 该 状态 。N = 0 表示 当 











BY 

















， 所 有 的 初始 值 都 设 为 0 





个 关键 点 。 


=| 








得 到 ， 存 储 到 该 子 节点 便 


方 玩家 落 子 ， 这 里 动作 可 表示 为 (5,5)， 代 表 黑 方 
节点 访问 次 数 为 0，W 表示 
励 ， 尸 表示 选择 动作 4 = 5 的 概率 。 由 于 当前 








dE 
节点 还 























由 于 游戏 ! 
么 从 黑 方 玩 家 的 视 














HE, 








进行 更 新 ， 要 




















该 轮 到 白 














家 ) 的 











对 每 个 节点 的 视 


度 来 存储 的 。 由 
A. N.W, Q, P 都 是 
黑 方 玩家 选择 动作 4 = 5 才 到 达 该 节点 ， 同 时 初始 化 当前 信息 
有 一 个 清晰 的 理 






































时 ， 不 易 理 解 整个 更 
建立 搜索 树 后 ， 蒙 特 卡 罗 树 
值 函数 @r(s,a)。 整 个 过 程 可 
每 个 动作 的 奖励 估计 逐渐 精确 
的 动作 价值 函数 可 以 表 





Q" (s, a) = Dm 
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通常 ， 
(Backup), 
* 选择 : 
* 扩展 : 



































新 过 程 。 


y 
只 有 


























KAS 个 黑 方 的 棋子 ， 

















方 玩家 执行 下 一 步 。 但 是 ， 需 要 注意 
于 该 节点 是 父 节点 有 
| 黑 方 玩家 初始 化 的 ， 


局 
本 


的 是 ， 这 个 节点 上 的 信息 是 从 其 父 























解 是 非常 





Ey EH 


重要 的 ， 否 则 在 





























THA 
并 用 于 黑 方 视 


的 过 程 中 新 产生 的 ， 
下 的 后 续 更 新 和 


大 | 





















































节点 ( 
此 该 节点 上 的 
EH. 


存在 两 个 玩家 ， 所 以 在 建立 搜索 树 时 ， 
么 从 


白 方 玩家 
所 以 此 时 应 
即 黑 方 玩 








所 以 ， 只 有 























为 N=0、W 
随后 树 搜 索 


0. Q 
的 过 程 ! 
































搜索 通过 启发 



































以 

















T-1 


h=0 




















， 从 而 在 

















Q" (s, a) 表示 动作 价值 函 
叶 的 期 望 奖 励 。 
树 搜 索 方法 有 四 个 步 又 ; 
所 有 这 些 步 又 都 是 在 搜索 树 ， 
根据 某 个 策略 ， 从 根 节点 开 








Å AI A 

















WRI, MRT IP eR 























式 的 方法 探索 决策 空间 ， 











0. P=0. 


执行 backup 4 


以 估计 根 节 点 的 动作 价 
直 探 索 到 叶 节 点 ， 多 次 重复 该 过 程 使 











得 














5 P(Sh41|Sh, An) R(Sh+1|Sr, An)|So 











执行 
始 选择 











前 叶 节 点 之 后 添加 子 节 点 。 


数 ， 即 在 状态 s 执行 动作 a 并 依 策略 m 选择 动作 ， 














s, Ag = a, An 








n(S4) . 


FE 搜索 树 中 找到 最 优 动作 。 不 带 折 扣 因子 (Discount Factor) 
示 为 (Couetoux et al., 2011): 


(15.1) 








选择 (Select), J HE (Expand), fiU (Simulate), |E 




















的 ， 真 正 的 棋盘 上 没有 沙子 。 
动作 ， 直 到 到 达 某 个 叶 节 点 。 





















































直到 终止 状 














il 
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。 模拟 : 从 当前 节点 开始 ， 通 过 某 种 策略 〈 如 随机 策略 》 模拟 下 棋 直 到 游戏 结束 ， 得 到 结果 ; 
胜 、 负 或 平局 。 根 据 结果 获得 奖励 ， 通 常 +1 代表 胜 ， 一 1 代表 负 ，0 代表 平局 。 
。 回溯 : 回溯 更 新 模拟 得 到 的 结果 ， 依 次 回访 本 轮 树 搜索 中 经 过 的 节点 ， 并 更 新 每 个 节点 上 
的 信息 。 
最 常用 的 树 搜 索 算法 是 UCT (Upper Confidence Bound in Tree， 树 置信 上 界 ) 算法 (Kocsis 
et al., 2006)， 它 很 好 地 解决 了 树 搜索 过 程 中 探索 与 利用 (Exploration versus Exploitation〉 之 间 的 
平衡 。UCT 算法 是 UCB (Upper Confidence Bound， 置 信 上 界 ) 算法 (Auer et al., 2002) 在 树 结构 
的 扩展 。UCB 算法 ( 详 见 2.2.2 310. 是 解决 多 辟 赌 博 机 (Multi-Armed Bandit) 问题 的 经 典 算法 。 
在 多 臂 赌 博 机 问题 中 ， 智 能 体 需 要 在 每 个 时 刻 选择 一 个 赌博 机 并 得 到 对 应 奖励 ， 其 目标 为 最 大 化 
HEK. UCB 算法 根据 以 下 策略 在 t 时刻 选择 动作 : 

























































































































































































I 
A, = arg max 区 +c Ss 3 (15.2) 





其 中 Qla) 是 动作 值 估计 ， 该 项 增加 了 优势 动作 被 选 到 的 可 能 性 ， 即 估 值 越 大 ， 动 作 越 倾向 
被 选取 《〈 即 利用 ，Exploitation ) 。 后 一 项 平方 根 式 中 M (a) 表示 动作 a 在 前 上 次 时 间 步 内 被 选中 
的 次 数 ， 该 项 增加 了 动作 的 探索 度 ， 即 动作 被 选中 的 次 数 越 少 ， 该 动作 越 倾 向 被 选取 〈 即 探索 ， 
Exploration). c 是 一 个 正 的 实数 ， 用 来 调节 探索 与 利用 之 间 的 权重 。UCB 算法 还 有 一 系列 变 体 ， 
如 UCB1, UCB1-NORMAL, UCB1-TUNED 和 UCB2 等 (Auer et al., 2002). 

UCT 算法 是 UCB1 算法 在 树 结 构 中 的 实现 ， 该 算法 选择 搜索 树 中 最 大 UCT 值 对 应 的 动作 ， 


UCT 值 定义 如 下 : 
UCT =X; FORES (15.3) 
j 


这 里 ，n 是 当前 节点 的 访问 次 数 ，nj 是 其 子 节 点 了 的 访问 次 数 ，Cw 0 是 控制 探索 的 权重 
参数 ， 可 以 根据 具体 问题 具体 设置 。 平 均 奖 励 项 X) 鼓励 利用 高 奖励 对 应 的 动作 ， 而 平方 根 项 
yn 鼓励 探索 访问 次 数 少 的 动作 。 

UCT 算法 解决 了 树 搜索 中 每 个 状态 下 对 应 动作 的 探索 与 利用 的 平衡 ， 并 颠覆 了 许多 大 规模 
的 强化 学 习 问 题 ， 例 如 六 连 棋 (Hex)、 围 棋 (Go) 和 雅 达 利 游戏 (Atari) 等 。Levente Kocsis 和 
Csaba SzepesVari (Kocsis et al., 2006) 证 明了 : 考虑 一 个 有 限 状 态 马 尔 可 夫 决 策 过 程 (Finite-Horizon 
MDP)， 其 中 奖励 在 [0, 1] 之 间 ， 状 态 数 为 D， 每 个 状态 的 动作 数 为 。 考 虑 UCT 算法 ， 令 UCT 
的 根 号 项 乘 以 D， 那 么 期 望 奖励 Xn 的 估计 偏差 与 O(22 ) 同 阶 。 此 外 ， 随 着 搜索 次 数 的 增加 ， 
根 节点 估计 错误 的 概率 以 多 项 式 速 率 收敛 到 零 。 这 表明 ， 随 着 搜索 次 数 的 增加 ，UCT 算法 能 够 保 
证 树 搜 索 收敛 到 最 优 解 。 

AlphaZero 算法 舍弃 了 模拟 步 又， 直接 用 深度 神经 网 络 预测 结果 。 因 此 ，AlphaZero 算法 包含 
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三 个 关键 步 又， 如 图 15.4 所 示 。 
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HH—— 





























































































































Li 
i Q+U max Q +U 


























图 154 AlphaZero 中 的 蒙特 卡 罗 树 搜索 。 在 每 次 真正 落 子 之 前 ， 树 搜索 过 程 都 会 重复 多 次 。 它 首 
先 从 根 节 点 选择 动作 直到 到 达 叶 节点 ， 然 后 扩展 叶 节 点 并 对 其 估 值 ， 最 后 执行 回溯 步骤 
新 节 J 点 信息 RA 









































































































































。 选 择 : 根据 某 个 策略 ， 从 根 节点 开始 选择 动作 ， 直 到 到 达 某 个 叶 节点 。 

。 扩 展 和 评估 : 在 当前 叶 节点 之 后 添加 子 节点 。 同 时 每 个 动作 的 选取 概率 和 状态 值 的 估计 直 
接 通 过 策略 网 络 和 价值 网 络 预测 得 到 。 为 了 节约 资源 , 通常 在 不 损失 算法 效力 的 前 提 下 , 会 
设置 一 个 闵 值 来 判断 该 节点 是 否 需 要 扩展 。 我 们 的 实现 省 略 了 这 个 闷 值 ， 每 次 到 达 叶 节点 
都 进行 扩展 和 评估 。 

e Dž: 扩展 和 评估 完成 之 后 ， 回 济 更 新 结果 ， 依 次 回访 本 轮 树 搜索 中 经 过 的 节点 ， 并 更 新 
每 个 节点 上 的 信息 。 如 果 叶 节点 不 是 游戏 的 终止 状态 ， 那 么 游戏 无 法 返回 胜 负 结果 ， 转 而 

神经 网 络 预测 得 到 。 如 果 叶 节点 已 经 到 达 游 戏 的 终止 状态 ， 那 么 结果 直接 由 游戏 给 出 
在 选择 步骤 中 , 动作 由 公式 a = argmax,(Q(s,a)+U(s,a)) 给 出 。 其 中 Q(s,a) = Ie 鼓励 利 

高 奖励 值 对 应 的 动作 ，U(s, 4) = ege P(s a) ere”) 鼓励 探索 访问 次 数 较 少 的 动作 ，cpwet F 

1 探索 和 利用 的 权重 ， 在 AlphaZero 算法 中 该 值 设 为 5。 
在 扩展 和 评估 步骤 中 , 策略 网 络 输出 当前 状态 下 每 个 动作 被 选择 的 概率 p(s, a), 价值 网 络 输出 

前 状态 s 的 估 值 vop(s,a) 用 于 在 select 步 又 中 计算 U(s, a), SL U(s, a) = gpl 0) Ye 

v 用 于 在 回 济 步 又 中 计算 W， 其 中 W(s,a) = W(s,a) 十 v。 神 经 网 络 输出 的 动作 概率 和 状态 值 估 

计 开始 时 可 能 不 准确 ， 但 在 训练 过 程 中 会 逐渐 变 准 。 
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在 回溯 步骤 中 ， 每 个 节点 上 的 信息 被 依次 更 新 ， 其 中 N(s,a) = N(s,a) +1,W(s,a) 
W(s, a) Mena Aes 


ET 


部 分 核心 代码 如 下 : 
蒙特 卡 罗 树 搜索 过 程 定义 为 类 MCTS， 它 包含 整个 树 结构 和 树 搜索 函数 playoutO: 


class MCTS(object): 














# 蒙特 卡 罗 树 : 
def__init__(self, policy_value_fn,action_fc,evaluation_fc, is_selfplay,c_puct 
n_playout): ... # 化 函数 





def _playout(self, state): 




















树 中 的 节点 定义 为 类 TreeNode， 其 中 包括 前 述 的 三 个 关键 步骤 : 





aE, RAI, BH. 





class TreeNode(object): 





def select(self, c puct): ... # 选择 动作 


def expand(self, action priors, add noise): 
def update(self, move): ... # HYE 









函数 select O 对 应 选择 步 又， 





def select(self, c_puct): 





UK UCT 值 对 应 的 动作 
return max(self. children.items(), 


key-lambda act. node: 





act node[1].get. value(c. puct)) 








函数 expand O XM Je PESE. RIESA AN Y AURI VETE URS, EAL 





def expand(self, action priors, add noise): 





扩展 新 市 点 









# action priors ; 


EA 


ff 网 络 加 a 力作 7 DX 其 对 





if add_noise: 


action priors = list(action priors) 


length - len(action priors) 


dirichlet noise = np.random.dirichlet(0.3 * np.ones(length)) 
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for i in range(length): 
if action_priors[i][0] not in self._children: 
self._children[action_priors[i][0]] = TreeNode(self, 
0.75 * action_priors[i][1] + 0.25 * dirichlet_noise[i]) 


else: 
for action, prob in action_priors: 
if action not in self._children: 
self._children[action] = TreeNode(self, prob) 





函数 update_recursive() XMS HAR: 





def update_recursive(self, leaf_value): 











# yd HAW k 
BANANA 点 ， 则 递归 更 新 
if self._parent: 

Pu me 值 来 改变 角 





self. parent.update recursive(-leaf value) 


self.update(leaf value) 


def update(self, leaf value): 


3l 


A 





# EG 
self. n visits += 1 
# 更 新 访问 次 数 

self. Q += 1.0 * (leaf value - self._Q) / self. n visits 

# 更 新 值 估计 : (v-0Q/GO«D4Q = (-Qr(01)*0)/ (n*1) 2 Ceen*Q) / (n1) 

















j 树 搜索 函数  playoutO 依次 执行 三 个 步骤 : 选择， 扩展 和 评 











=H 





蒙特 卡 罗 树 搜索 类 MCTS jJ 
fe, TH. 








def _playout(self, state): 





# 执行 一 次 树 搜索 过 程 
node = self._root 
# 选择 

while(1): 


if node.is leafO: 


break 
action, node = node.select(self.. c puct) 


state.do move(action) 
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action probs, leaf value - 
self. policy value fn(state,self. action fc,self. evaluation fc) 
end, winner - state.game end() 
if not end: 
node.expand(action probs,add noise-self. is selfplay) 
else: 
if winner -- -1: £ draw 
leaf value = 0.0 
else: 
leaf value = C 
1.0 if winner == state.get current player() else -1.0 


3 [E 


node.update recursive(-leaf value) 





15.4 AlphaZero: 棋 类 游戏 的 通用 算法 





一 般 来 说 ，AlphaZero 算法 适用 于 各 种 组 合 博弈 游戏 ， 如 围棋 、 国 际 象棋 、 日 
里 ， 我 们 以 15.2 节 中 提 到 的 无 禁 手 五 子 棋 作 为 例子 ， 介 绍 AlphaZero 算法 的 细节 。 
不 是 重点 ， 五 子 棋 这 样 一 个 规则 简单 的 回合 制 游戏 非常 适合 作为 例子 。 进 一 步 ， 我 















































































































































本 将 棋 等 。 这 
因为 游戏 本 身 
门 简化 棋盘 大 

















小 为 3 x 3， 如 前 所 述 ， 三 个 棋子 连 成 一 线 表示 获胜 。 另 外 ， 由 于 AlphaZero 算法 是 AlphaGo Zero 





算法 的 加 强 版 ， 这 两 种 算法 非常 相似 。 我 们 的 实现 同时 参考 了 这 两 种 算法 。 


















































为 了 让 读者 更 好 理解 该 算法 ， 本 节 将 演示 AlphaZero 算法 的 详细 流程 。 整 个 算法 可 分 为 两 部 


4: CD 采用 蒙特 卡 罗 树 搜索 的 自 博弈 强化 方法 收集 数据 ;《〈2) 利用 深度 神经 网 络 拟 合 数据 并 用 



























































于 蒙特 卡 罗 树 搜索 中 。 整 个 过 程 如 图 15.5 所 示 。 
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应 该 到 达 该 节点 )， 只 需 更 新 访问 次 数 W。 将 N = 0 更 新 为 N = 1， 本 次 树 搜索 
















































































方 玩家 执行 动作 。 


















































































































































首先 ， 我 们 演示 蒙特 卡 罗 树 搜索 收集 数据 。 为 了 用 相对 较 短 的 篇 幅 演 示 树 搜索 过 程 直 到 游戏 
的 终止 状态 ， 我们 假定 游戏 从 图 15.6 所 示 的 状态 开始 (通常 游戏 是 从 一 个 空 棋盘 用 
EIA 
我 们 从 这 个 状态 开始 构建 树 结构 ， 依 次 执行 前 述 三 个 树 搜索 步骤 : 选择 ， 扩 展 和 和 评估， 回溯 。 
此 时 树 中 只 有 一 个 节点 ， 由 于 它 在 树 的 顶部 ， 所 以 是 根 节点 ， 又 因为 它 没 有 子 节 点 ， 所 以 它 也 是 
叶 节 点 。 这 意味 着 我 们 已 经 到 达 了 一 个 叶 节 点 ， 相 当 于 已 经 完成 了 选择 步骤 。 因 此 ， 接 下 来 执行 
第 二 个 步骤 : 扩展 和 评估 。 图 15.7 展示 了 节点 扩展 的 过 程 ， 该 节点 的 所 有 子 节 点 被 展开 ,同时 策 
咯 网 络 以 该 节点 状态 作为 输入 ， 给 出 了 每 个 动作 被 选择 的 概率 。 
最 后 一 步 是 回溯 。 由 于 当前 节点 是 根 节点 ， 我 们 不 需要 回溯 全 AQ UT 





F 始 的 )。 此 时 ， 





名 断 树 搜索 是 否 
过 程 完成 


15.4 AlphaZero: 


棋 类 游戏 的 通用 算法 





























图 155 算法 流程 
特 卡 罗 树 
agit nU de is 
T; 


o TEA 





神经 网 络 





pha ag H 


























搜索 结 径 网 络 | 














SEES 


























个 过 程 形 成 良性 





循环 




















156 fH 




















ERS. H 














每 


从 根 节 点 开 
arg max,(Q(s, a) 
选择 动作 A = 2(w, 2), 
我 们 对 这 个 叶 





KE 





概率 

















现 


在 轮 到 回 汶 操作 了 。 此 时 树 里 有 两 个 节点 , 我 们 首先 更 新 当前 节点 , 然后 更 新 六 





EE 新 执行 
始 。 











盘 大 小 为 3 x 3。 在 该 状态 下 ， 轮 到 


树 搜索 ， 我 们 都 将 从 根 节 点 开始 。 


Ph, 蒙特 卡 罗 树 搜索 、 
于 生成 数据 ， 生 成 
成 的 数据 质量 越 高 ，; 


数据 











数据 及 神经 网 络 
的 数据 用 于 提升 网 络 预 测 精度 。 网 络 预 








训练 








成 了 


个 循环 。 蒙 




















如 图 








这 一 
+ U(s,a)), Q(s, a) 
并 到 达 











次 ， 根 节点 下 存在 子 节点 ， 这 意味 该 节点 不 


N? 


新 节点 。 这 个 





U(s, a) = CpuctP(s, a) T 




















策略 网 络 给 出 。 


节点 进行 扩展 和 评估 。 与 











第 一 次 相同 : 所 


























这 两 个 节点 的 更 
值得 注意 的 是 ， 树 中 
以 当前 玩家 的 视角 更 
方 玩家 的 角度 来 看 的 。 当 更 


W(s,a) 
N(s,a) ° 


且 总 是 





到 N 


























新 值 。 























折 遵 循 相同 的 方式 : N(s， 
两 个 视角 : 
例如 ， 在 图 15.10 





a) = N(s,a) +1,W(s,a) 


数据 质量 越 高 ， i 











白 方 玩家 执行 动作 





15.8 所 示 ， 第 


是 叶 节 点 。 


VED 给 出 。 这 里 


新 节点 为 叶 节 点 ， 且 此 时 ， 轮 到 


| 练 的 网 络 预测 





越 精 


二 次 树 搜 索 过 程 也 将 








动作 














| 公式 a = 























= W(s,a) +v 





白 方 玩家 


姑 方 玩家 选择 动作 。 
可行 的 动作 都 被 扩展 ， 每 个 动作 的 


前 一 个 节点 。 


s),Q(s,a) = 




















黑 方 视角 和 白 方 视 









































所 属于 











LW 


0.1, 


0.1. 





白 方 玩家 的 信息 











， 价 值 网 络 的 估 值 














。 我 们 需要 注意 更 新 的 视 
一 0.1， 这 是 从 黑 
时 需要 取 反 ， 即 v(s) = 一 0.1。 所 以 ， 我 们 得 














v(s) 











A, Jf 
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白 方 玩家 回合 



















黑 方 玩家 回 

































































15.7， 根 节点 处 的 扩展 和 评估 。 所 有 可 行动 作 的 节点 都 被 扩展 ， 神 经 网 络 给 出 相应 的 概率 值 


n(a|s) 





A 























Action= 1 
el N=1 
白 方 玩家 回合 W —0 





S cx Action = 2 

AI N-0 

玩家 W =0 
A Q=0 


A P=0.4 


a = argmax,(Q(s,a) + U(s,a)) 


探索 , U(s, a) = Cpuct P(s, a) Eb NGD) 





1+N(s,a) 
WwW 
利用 : Q(s,a) =~ 
图 15.8” 根 节点 处 的 选择 。 白 方 玩家 选择 A = 2 (w,2) 并 到 达 叶 节点 。 此 时 轮 到 黑 方 玩家 选择 动 


























作 


然后 我 们 返回 到 它 的 父 节 点 。 和 之 前 一 样 ， 由 于 当前 状态 的 节点 是 根 节点 ， 我们 不 需要 回 济 
更 新 W 和 QQ， 只 需要 更 新 访问 次 数 N。 所 以 ， 令 N = 2， 第 二 次 树 搜 索 过 程 完 成 。 如 图 15.11 
所 示 。 
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白 方 玩家 回合 

















黑 方 玩 家 回合 
Network 
x(als) v(s) 














展 ， 神 经 网 络 给 出 相应 的 概率 值 (as) 



































Network 
NEW N(s,a) = N(s,a) +1 
(als) v(s) W(s,a) = W(s,a) + v(s’) 
W(s,a) 
| Qs, 8) = wa 
-0.1 转换 视角 
Vwhite = 一 7black 












































图 15.10 新 节点 处 的 回溯 。 当 前 节点 的 信息 被 更 新 ， 
0.1,Q = 0.1 








白 方 视 角 进 行 更 新 : N = 1,W = 
































第 三 次 树 搜 索 过 程 也 从 根 节 点 开始 。 根 据 公 式 a = argmaxa(Q@(s,a) + U(s,a)) 和 当前 树 ， 
的 信息 ， 白 方 玩家 选择 动作 2 (ww,2)， 黑 方 玩家 选择 动作 9 (5,9)。 如 图 15.12 所 示 ， 经 过 选择 步 又 
后 ， 游 戏 到 达 了 终止 状态 。 这 次 对 于 扩展 和 评估 步骤 ， 节 点 将 不 会 被 扩展 ， 同 时 可 以 直接 从 游戏 
中 获取 价值 v。 因 此 ， 价 值 网 络 不 会 用 来 估计 状态 价值 ， 策 略 网 络 也 不 会 输出 动作 概率 。 
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白 方 玩 家 回合 





图 15.11 














根 节 点 处 的 回溯 。 更 新 为 2，W 和 Q 不 需 





Action= 1 
N=2 


白 方 玩家 回合 W=0 





白 方 玩家 告 负 ! 


M. 


Reward = -1 





奖励 总 是 从 当前 玩家 视角 获得 























1512 ” 终 节点 处 的 扩展 和 评估 。 由 
接 从 游戏 中 获得 : 












































于 游戏 在 该 节点 结束 ， 因 此 不 会 扩展 任何 节点 ， 并 且 可 以 
励 。 所 以 ， 这 里 不 会 使 用 策略 网 络 和 价值 网 络 


接 下 来 是 回溯 ， 且 轨迹 上 有 三 个 节点 。 如 前 所 述 ， 节 点 从 叶 节点 递归 更 新 直到 根 节点 ， 其 中 
N(s,a) = N(s,a) - 1,W(s,a) = W(s,a) +0(s), Q(s,a) = VE 


= eg 。 此 外 ， 还 应 该 切换 每 个 节点 的 
380 
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视角 ， 这 意味 着 Unite = 一 vback。 在 这 个 游戏 中 ， 黑 方 玩家 选择 动作 (b,9) 并 到 达 一 个 新 节点 。 
现在 本 该 轮 到 白 方 玩家 选择 动作 ， 但 遗憾 的 是 游戏 在 此 结束 了 ， 白 方 玩家 输 掉 了 游戏 。 所 以 奖励 
值 reward = 一 1 是 从 白 方 玩家 的 视角 来 看 的 ， 也 就 是 说 vwnite = 一 1。 当 我 们 更 新 这 个 节点 上 的 信 
息 时 ， 如 前 所 述 ， 这 些 信息 是 被 黑 方 玩家 用 来 选择 动作 A = 9 并 到 达 这 个 节点 ， 所 以 这 个 节点 的 
值 应 该 是 vae = 一 vwpite = 1， 其 他 信息 同 理 ， 有 NN = 1, 仇 =1Q9=1。 剩 余 两 个 节点 的 信息 也 
以 同样 的 方式 更 新 。 

在 完成 回溯 步骤 之 后 ， 树 结构 如 图 15.13 所 示 。 根 节点 已 被 访问 三 次 ， 并 且 每 个 被 访问 过 的 
节点 信息 都 已 更 新 。 



























































































































































Action=1 Action= 1 
N=3 





白 方 玩 家 回合 


Action=2 Action=2 


AID N=1 





玩家 
a 
mH 
白 方 
玩家 
^M 
A 
: N(s,a) = N(s,a) +1 
转换 视角 W(s,a) = W(s,a) + v(s‘) 
Vene cU Q(s,a) = TE 























图 15.13 ”回溯 步骤 之 后 的 树 结构 。 在 第 三 次 树 搜索 过 程 中 ， 回 漳 步 又 递归 地 更 新 三 个 被 访问 节 
点 的 信息 。 由 于 两 个 玩家 在 同一 树 结构 中 ， 且 wnie = 一 Vpack， 所 以 需要 注意 从 正确 的 
视角 更 新 信息 








































































































我 们 已 经 演示 了 三 次 蒙特 卡 罗 树 搜索 的 迭代 过 程 。 经 过 400 次 搜索 后 (在 AlphaGo Zero 算 
法 中 ， 搜 索 次 数 是 1600; 在 AlphaZero 算法 中 ， 搜 索 次 数 是 800， 如 图 15.14 所 示 )， 树 结构 变 得 
更 大 ， 且 估 值 更 加 精确 。 
经 过 树 搜索 过 程 之 后 ， 可 以 在 真正 的 棋盘 上 走 子 了 。 动 作 的 选取 通过 计算 每 个 动作 的 访问 
次 数 并 归 一 化 为 概率 进行 选择 ， 而 不 是 直接 通过 策略 网 络 输 出 动作 概率 : r(als) = TEA = 


eens ; Hı T—0 是 温度 参 数 ， bc A 表示 状态 WN S 下 的 可 行动 作 。 这 里 选择 的 动作 是 9 































































































































































































381 


第 153  AlphaZero 





(w,9), "Hd 15.15 Pras. 


Action- 1 
N = 401 







白 方 玩家 回合 


RJ 
玩家 
za 
A 


A AN A A AN QUA 
NAA 
TM 























由 于 第 一 次 搜索 是 从 扩展 和 评估 步骤 开始 的 ， 并 没有 选择 
次 数 之 和 为 400， 根 节点 的 访问 次 数 为 401。 这 个 细节 并 





























1514 £i 400 次 搜索 的 树 结构 。 
子 节点 ， 因 此 其 子 节点 的 访问 
影响 算法 思想 
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Action= 1 
N = 401 


白 方 玩家 回合 | w-o 
Q-0 





























a 2 3 6 7 8 9 
40 10 5 10 15 320 
n(a|s) — 一 一 一 一 一 一 一 一 一 -一 
400 400 400 400 400 400 
_ N(sa)!/* WB RET x 
n(a|s) = Xb N(s,b)1/T QUA 温度 z 数 
E1515 ”在 真正 的 棋盘 上 走 子 。 经 过 400 次 搜索 后 ， 根 据 r(als) = XC 选择 动作 。 这 里 












































白 方 玩家 选择 动作 9 (w, 9) 
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15.4 AlphaZero: 棋 类 游戏 的 通用 算法 





























温度 参数 用 来 控制 探索 度 。 若 7 = 1， 动 作 的 选择 概率 和 访问 次 数 成 正比 ， 则 这 种 方式 探索 
度 高 ， 可 以 确保 数据 收集 的 多 样 性 。 若 7 一 0， 则 探索 度 低 ， 此 时 倾向 于 选择 访问 次 数 最 大 的 动 
作 。 在 AlphaZero 和 AlphaGo Zero 算法 中 ， 当 执行 自 博弈 过 程 收 集 数 据 时 ， 前 30 步 〈 在 我 们 的 
实现 中 为 12 步 ) 的 温度 参数 设 为 7 = 1， 其 余部 分 设置 为 7 一 0。 当 与 真正 对 手下 棋 时 ， 温 度 参 
数 始 终 设置 为 7 一 0， 即 每 次 都 选择 最 优 动 作 。 

至 此 ， 位 置 9 处 已 经 放置 了 白 方 棋 子 ， 因 此 树 中 的 根 节点 将 被 更 改 。 如 图 15.16 所 示 ， 蒙 特 
卡 罗 树 搜索 将 从 新 的 根 节点 继续 。 其 他 兄弟 节点 及 其 父 节 点 将 被 剪 枝 丢弃 以 节省 内 存 。 

























































































































































































白 方 玩 家 回合 
(w, 9) 
新 的 根 节点 
Action = 2 Action= 3 
Lud N — 40 N — 10 
玩家 W = 一 35 w=-9 
A |Q=-0875 | @=-0.9 
A P=0.4 P=0.1 
— eS Se 
图 15.16 ”新 的 根 节点 。 新 根 节 点 下 的 节点 将 被 保留 ， 其 他 节点 将 被 丢弃 












































整个 过 程 一 直 重 复 下 去 ， 直 到 一 局 游戏 结束 。 我 们 得 到 数据 和 结果 如 图 15.17 所 示 。 
每 个 动作 的 概率 计算 方式 为 r(als) = PS = 1。 需 要 注意 ， 这 里 的 概率 通过 访问 
次 数 计算 ,这 是 蒙特 卡 罗 树 搜索 自 博弈 过 程 和 神经 网 络 训练 相 结 合 的 关键 点 。 由 于 该 局 游戏 的 结 
果 是 平局 ， 这 里 所 有 数据 的 标签 都 是 0 (图 15.18)。 
现在 我 们 已 经 有 了 蒙特 卡 罗 树 搜索 生成 的 数据 ， 下 一 步 就 是 利用 深度 神经 网 络 进行 训练 。 在 
训练 过 程 中 ， 首 先 将 数据 转换 成 堆 盔 的 特征 层 。 每 个 特征 层 只 包含 0-1 值 用 以 表示 玩家 的 落 子 ， 
中 一 组 特征 层 表示 当前 玩家 的 落 子 ， 另 一 组 特征 层 表示 对 手 的 沙子 。 这 些 特征 层 按照 历史 动作 
序列 顺序 堆 又 。 然 后 ,我 们 用 与 AlphaGo Zero 算法 相同 的 数据 增强 方法 对 数据 进行 扩展 :由 于 故 
棋 和 五 子 棋 的 规则 都 不 受 旋转 和 镜像 翻转 的 影响 ， 因 此 在 训练 之 前 ， 我 们 将 数据 做 旋转 和 镜像 翻 
转 增强 。 在 蒙特 卡 罗 树 搜索 过 程 中 ， 棋 盘 状态 被 随机 旋转 或 镜像 翻转 ， 然 后 再 用 神经 网 络 进行 巴 
测 ， 从 而 可 以 在 一 定 程度 上 减 小 方差 。 然 而 在 AlphaZero 算法 中 ， 由 于 某 些 游戏 规则 不 具有 旋转 
和 镜像 翻转 不 变性 ， 因 此 AlphaZero 没有 使 用 该 技巧 。 言 归 正 传 ， 随 着 收集 的 数据 越 来 越 多 ， 不 
断 训练 的 网 络 会 得 到 更 加 精确 的 估计 。 
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AlphaZero 















































平局 ! 


Reward=0 
































n(a|s) = (x(1|s),7(2|s), n(3ls), n(4ls), n(5ls), x(6|s), (7|s), n(8l8), n(9]s)) r 
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10 15 320 
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eward = 0 
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我 们 使 用 





网 络 的 输入 是 前 述 构造 的 状态 特 行 
p.m 为 列 向 量 。 损 失 函 数 / 
化 组 成 。4 
] 介 绍 一 些 关 于 模型 更 新 的 细节 。 在 AlphaGo Zero 算法 ! 


数据 为 (s,T,7) 





参数 的 L2 正则 
此 外 ， 我 介 





模型 对 打 400 





即 对 模型 有 一 个 评估 





15.18” 带 标签 的 数据 。 
1 表示 胜利 ， 2 


ResNet (He et al., 2016) 作为 网 络 结构 〈 图 


[(S (alS , reward = 0),......, 





动作 的 概率 根据 x(a|s) = 
1 表示 失败 ，0 表示 平局 


(Sio (al|S10) , reward = 0)] 


N(s,a)\/7 














= o b)I77 
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? FN 














uH. un 
的 过 程 。 





打 ， 而 是 直接 不 断 更 3 
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Wr 











模型 胜率 超过 5596, AKA 
相 比 之 下 ， 在 AlphaZero 算法 的 版 本 中 ， 它 不 与 之 六 
型 参数 ， 这 些 都 是 可 行 的 方法 。 我 们 的 版 本 和 AlphaGo Zero 的 方式 相 











| 动作 分 布 的 交叉 炉 损失 、 





具体 公式 为 1= (r-v)? — rT logp + cl|6|?, 




















其 中 参数 c 调 

















它 将 蔡 换 掉 之 前 的 模型 成 为 当 


计算 , 标签 v(s ) 来 自 游戏 的 结果 : 


， 新 模型 将 














15.19)， 这 和 AlphaGo Zero 算法 相同 。 
征 ， 输 出 是 动作 概率 和 状态 值 。 网 络 可 以 表示 为 (p, v) = 
状态 值 的 均 方 误差 和 


fo(s)» 





节 正 则 化 权重 。 
和 当前 的 最 优 
前 的 最 优 模型 ， 











1 的 模型 进行 对 


15.4 AlphaZero: 棋 类 游戏 的 通用 算法 











同 ， 以 使 训练 过 程 更 加 稳定 。 此 外 ， 如 果 想 更 快 地 训练 模型 ， 可 以 使 用 多 进程 并 行 收集 数据 ， 甚 


至 采用 原 论文 异步 树 搜索 的 方式 。 15.20 展示 了 并 行 的 训练 方式 ， 多 个 进程 同时 从 最 优 模型 ， 
源源 不 断 生成 自 博 弈 数据 ， 收 集 到 最 新 的 自 博 弈 数据 用 来 训练 神经 网 络 ， 最 新 训练 的 模型 和 最 优 
模型 进行 不 断 评估 CAlphaGo Zero 的 方式 )， 所 有 这 些 进程 都 并 行 执行 。 
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Y 
1x1 conv,64 





Y = 
3x3 conv,64 





Y 
3x3 conv,64 
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. 
Y = e 
3x3 conv,64 











3x3 conv,64 PA 
x 





4 —» 
1x1 conv,64 1x1 conv,64 
v 
FC layer,256 
—— 
EC layer,9 FC layer,1 


n(a|s) v(s) 
图 15.19 网络 结 构 。 结 构 与 AlphaGo Zero 算法 相同 。ResNet 作为 主干 ， 两 个 头 分 别 输 出 概率 分 
布 和 状态 估 值 
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" 
若 新 模型 胜率 超 

过 55%， 则 替换 
最 优 模型 








































































新 网 络 模型 

















1520 ”并 行 训练 框架 


图 


随 着 新 数据 源源 不 断 地 生成 ， 神 经 网 络 不 断 迭 代 训 练 ， 得 到 更 准确 的 估 值 ， 一 个 强大 的 五 子 

















棋 AI 就 生成 了 。 
我 们 最 终 在 11 x 11 的 棋盘 上 通过 多 进程 并 行 的 方式 训练 了 无 禁 手 规则 的 五 子 棋 AI， 表 15.1 


列 出 了 一 些 具体 参数 .随后 我 们 在 15 x 15 的 棋盘 上 同样 成 功 训 练 了 一 个 模型 ,这 表明 了 AlphaZero 
385 






























































第 15 章 


AlphaZero 











算法 的 通用 性 和 稳定 性 。 




















参数 





15.1 ”参数 对 比 


AlphaGo Zero 


AlphaZero 





Cpuct 


5 


5 





MCTS times 


1600 


800 





residual blocks 


19/39 


19/39 





batch size 


2048 


4096 





learning rate 


annealed 


annealed 





optimizer 


SGD with momentum 


SGD with momentum 





Dirichlet noise 


0.03 


0.03 





weight of noise 


0.25 


0.25 





T = 1 for the first n moves 








30 





30 
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本 章 主 要 介绍 模拟 环境 
体 的 任务 ， 并 月 


臂 抓 取 物 








模拟 环境 中 机 器 


学 习 























Vk. TEASER AR 


进行 简单 的 讨论 。 




















深度 强化 学 习 算法 有 很 多 潜在 的 现实 世界 应 
尽管 深度 强化 学 习 算 法 
Gym 环境 等 ， 我 1 


os 


法 ， 比 如 











尾 ， 我 们 也 对 机 器 人 学 习 应 用 


NA 











Lo 


机 器 人 学 习 的 一 个 上 手 项 
深度 强化 学 习 算 法 柔性 ActorCritic (Soft Actor-Critic, SAC) 


实验 部 分 展示 不 同 奖励 函数 的 效果 , 用 以 验证 辅助 密集 奖励 对 于 解决 类 似 机 器 人 抓 取 





ng 























目 ， 包 括 在 CoppeliaSim ! 












































A fe Ve AR IE HUE U 








、 模 拟 到 现实 的 迁移 和 其 他 机 器 人 学 习 项 目 











个 机 械 

去 解决 它 。 
EDS WY LE 
及 模拟 器 


设 















































场景 ， 机 器 人 控制 是 其 











最 令 人 振奋 的 领域 



































xs 
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前 还 不 能 

















使 得 它 成 为 深度 强化 学 习 在 模拟 和 现实 





界 中 机 器 人 控制 的 巨大 潜力 也 吸引 了 许多 像 DeepMind 和 OpenAI 等 高 科技 公司 
或 。 近 来 ，OpenAI 7 

















图 

































































以 ) 











绝 大 多 数 简 单 的 游戏 ， 像 之 前 介绍 的 OpenAI 
期 望 深度 强化 学 习 方 法 在 机 器 人 控制 领域 能 完全 替代 传统 控制 方 
反 向 运动 学 (Inverse Kinematics) z& tk 4 
PID) 控制 等 。 然 而 ， 深 度 强化 学 习 能 够 应 用 于 某 些 
其 是 对 于 高 度 复 杂 的 系统 或 者 灵活 操控 任务 (Akkaya 
在 绝 大 多 数 情况 下 ， 机 器 人 控制 的 动态 过 程 可 


上 -积分 -微分 (Proportional - Integral - Derivative, 


\ 体 情形 ， 作 为 与 传统 控制 相 








甫 相 成 的 方法 ， 














et al., 2019; Andrychowicz et al., 2018). 
马尔 可 夫 (Markov) 过 程 很 好 地 近似 ， 这 


中 的 一 个 理想 的 试验 场 。 另 外 ， 深 度 强化 学 习 对 于 现实 世 

































































究 使 朋 





然而 ， 




















et al., 2019) 是 有 
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RAAT 
甚至 通过 自动 域 随机 化 (Automatic Domain Randomization) 技术 来 解决 模 
拟 到 现实 的 迁移 〈Sim-to-Real Transfer) 问题 ， 从 而 用 
16.1 所 示 。 其 他 公司 也 开始 下 
直接 让 机 器 人 在 现实 世界 中 训练 (Korenkevych et al., 2019). 
于 将 强化 学 习 算 法 直接 应 用 于 现实 世界 中 
现 直 接 在 现实 世界 中 训练 强化 学 习 策略 来 解决 复杂 的 机 器 人 系统 控制 或 灵活 操 
困难 的 。 在 模拟 环境 中 训练 并 在 随后 将 策 


个 单 手 五 指 机 械 臂 解决 了 
有 比如 在 仓储 物流 中 的 货物 分 发 任务 上 使 月 


HIRE, EE 





了 采样 效率 低 和 安全 性 上 








IES SIPS, Bee 





Zu 


7L 











Rubik 魔方 ， 如 





的 问题 ， 人 们 发 


空 任务 (Akkaya 
利用 人 类 专家 




















16.1 机 器 人 模拟 

















图 16.1 用 一 个 机 器 手 解决 Rubik 魔方 的 场景 。 图 














片 改编 自 文献 (Akkaya et al., 2019) ( 见 彩 插 ) 








的 示范 (Human Expert Demonstrations) 来 学 习 ， 都 是 更 有 潜力 满足 机 器 人 学 习 的 计算 性 能 和 安 


全 要 求 的 方式 。 机 器 人 的 模拟 器 已 经 发 展 了 数 十 











FEF， 包括 DART. CoppeliaSim (在 3.6.2 版 本 之 





前 叫 作 V-REP) (Rohmer et al., 2013)、MuJoCo、Gazebo 等 。 在 本 章 最 后 一 小 节 会 有 相关 讨论 。 为 











了 便于 人 们 使 用 深度 强化 学 习 控制 














在 模拟 环境 











验 地 (包括 但 不 PB 








策略 和 其 他 数值 操作 ， 这 些 模 拟 器 多 数 都 有 Python 对 应 版 本 。 





学 习 至 少 在 两 个 方面 有 意义 。 第 一 ， 模 拟 环境 可 以 用 作 新 提出 算法 或 框架 的 试 


















































民 于 强化 学 习 领 域 )， 尤 其 是 大 规模 的 现实 世界 应 用 ， 比 如 机 器 人 学 习 任 务 。 在 








模拟 环境 中 学 习 可 以 作为 新 方法 在 应 用 到 现实 情景 前 的 验证 过 程 。 第 二 ， 对 于 通过 模拟 到 现实 迁 
移 的 方式 解决 现实 世界 问题 来 说 ,在 模拟 中 学 习 是 不 可 或 缺 的 一 步 ， 可 以 减少 时 间 消 耗 和 物理 设 


A ET 


在 这 一 章 , 我 们 将 介绍 把 深度 强化 学 习 算法 应 



























































j 到 一 个 模拟 环境 中 简单 的 机 器 人 物体 抓 取 任 





务 的 过 程 ， 使 用 CoppeliaSim CV-REPO 模拟 器 和 它 的 Python 封装 : PyRep (James et al., 2019a)。 我 
们 开源 了 这 个 项 目的 任务 描述 和 深度 强化 学 习 算法 相关 代码 1， 便 于 读者 学 习 和 理解 。 
由 于 之 前 已 经 介绍 了 一 个 将 强化 学 习 应 用 于 大 规模 高 维度 连续 空间 的 应 用 ， 本 章 的 机 器 人 学 








JERK EMEY 


实践 中 强化 学 习 的 其 他 方 画 







































































， 包 括 如 何 构 建 一 个 能 通过 强化 学 习 实现 特定 任务 





的 模拟 环境 ， 如 何 设 计 奖 励 函 数 来 辅助 强化 学 习 实 现 最 终 的 任务 目标 等 ， 以 给 读者 提供 对 强化 学 
习 更 好 的 理解 ， 不 仅 限 于 训练 过 程 ， 更 在 于 如 何 设 计 学 习 环境 。 


























16.1 机 器 人 模拟 








我 们 第 一 步 要 做 的 是 设置 一 个 模拟 环境 ， 包 括 : 一 个 机 械 臂 、 与 机 械 臂 交互 的 一 个 物 块 。 这 
个 模拟 环境 应 当 符 合 现实 物理 动态 规律 。 然 而 ， 这 里 我 们 要 强调 一 点 ， 一 个 真实 的 模拟 不 意味 着 























在 这 个 模拟 环境 ， 


























学 习 到 的 策略 就 可 以 直接 在 现实 世界 中 取得 好 的 表现 。 























! 链 接见 读者 服务 


个 “真实 的 ”模拟 环 
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境 可 以 通过 不 同 的 具体 形式 实现 ， 而 其 中 只 有 一 种 形式 可 以 与 实际 的 现实 世界 相 
说 ， 不 同 光照 条 件 可 以 在 物体 上 产生 不 同 的 阴影 效果 ， 而 这 些 可 能 看 起 来 都 很 “真实 ”， 但 
有 其 中 一 种 是 跟 现实 相同 的 ， 而 且 由 于 深度 神经 网 络 的 敏感 性 ， 



















































































Randomization )、 动 力学 随机 化 (Dynamics Randomization) 等 许多 方法 被 提出 和 应 | 

















在 本 章 进行 相关 讨论 。 























| 这 些 外 观 上 的 细微 差异 可 能 与 
现实 中 做 出 截然 不 同 的 动作 。 为 了 解决 这 类 模拟 到 现实 迁移 过 程 的 问题 ， 如 域 随机 化 (Domain 












































rain 
NI 
PA 


匹配 。 举 例 来 





J, REH 


现在 有 许多 机 器 人 的 模拟 器 ,包括 CoppeliaSim ( V-REP). MuJoCo, Unity 等 。 原版 CoppeliaSim 




















CV-REP) 软件 使 用 C++ 和 Lua 语言 支持 的 通用 接口 ,而 只 有 部 分 函数 功能 可 以 通过 Python 实现 。 
然而 ， 对 于 应 用 深度 强化 学 习 而 言 ， 最 好 使 用 Python 接口 。 幸 运 的 是 ,我们 有 PyRep 软件 包 来 将 









































CoppeliaSim (V-REP) 用 于 深度 机 器 人 学 习 。 在 本 项 目 中 ， 我 们 使 




















配 它 的 软件 包 PyRep 来 调用 Python 接口 。 
我 们 将 在 本 节 展 示 设 置 一 个 机 器 人 学 习 任 务 的 基本 过 程 。 



































安装 CoppeliaSim 和 PyRep 





CoppeliaSim《V-REP) 软 件 可 以 在 官网 ?下 载 到 ,而 在 本 书 的 写作 过 程 中 ,我 






























































(V-REP) 的 3.6.2 版 本 (可 以 在 网 站 3 上 找到 ) 来 跟 PyRep 兼容 。 它 可 以 直接 通 
来 安装 。 注 意 高 于 CoppeliaSim (V-REP) 3.6.2 的 版 本 可 能 跟 这 个 项 目的 其 他 模块 不 
安装 完 CoppeliaSim (V-REP) 之 后 , 我 们 可 以 通过 以 下 几 步 安装 我 们 仓库 网 站 〔 链 接见 读 塘 





























服务 ) 上 的 一 个 PyRep 的 分 支 稳定 版 本 : 









































RI 。 


] CoppeliaSim (V-REP) 并 搭 


门 需要 CoppeliaSim 


过 解压 下 载 的 文件 




















git clone https://github.com/deep-reinforcement-learning-book/PyRep.git 


pip3 install -r requirements.txt 

python3 setup.py install --user 

# 注意 : 在 以 下 指令 中 需要 将 路 径 改 为 用 户 本 机 的 VREP 安装 位 置 
export VREP_ROOT=EDIT/ME/PATH/TO/V-REP/INSTALL/DIR 
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH: $VREP_ROOT 
export QT_QPA_PLATFORM_PLUGIN_PATH=$VREP_ROOT 


source-/.bashrc 

















记得 通过 上 面 脚本 中 的 VREP. ROOT 更 改 VREP 的 路 径 。 

















Git 克隆 本 项 目 

















本 章 的 深度 强化 学 习 算 法 应 用 于 机 器 人 学 习 任务 项 目 可 以 通过 以 下 命令 下 载 : 

















2 链接 见 读者 服务 
3 链接 见 读 者 服务 
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git clone https://github.com/deep-reinforcement-learning-book/Chapter16-Robot-Learning 


-in-Simulation.git 











这 个 项 目 包 含 机 器 人 的 部 分 〈 机 械 臂 ， 夹 具 ) 和 其 他 我 们 需要 的 物体 、 构 建 的 机 器 人 抓 取 任务 情 
景 、 用 来 训练 智能 体 控制 策略 的 深度 强化 学 习 算 法 等 。 本 项 目 中 的 机 器 人 抓 取 任务 情景 见 图 16.2。 
我 们 将 在 以 下 几 小 节 中 展示 如 何 构建 这 个 包含 基本 组 成 部 分 的 场景 。 

















16.2 CoppeliaSim (V-REP) 中 的 抓 取 ( Grasping ) 任务 场景 ( 见 彩 插 ) 





组 装机 器 人 


我 们 使 用 名 为 Rethink Sawyer 的 机 械 臂 和 一 个 BraxterGripper 终端 夹具 。 官 方 PyRep 软件 包 
提供 了 多 种 机 械 臂 和 夹具 ， 可 以 用 来 组 装 和 构建 你 想 要 的 任务 场景 。 我 们 这 里 提供 一 个 例子 ， 将 
一 个 夹具 安装 到 机 械 辟 ， 如 图 16.3 所 示 。 

在 我 们 的 Git 文件 下 ,将 ./hands/BaxterGripper.ttm 和 ./arms/Sawyer.ttm 拖 入 在 Cop- 
peliaSim (V-REP) 中 打开 的 一 个 新 场景 。 我 们 选择 夹具 并 同时 按 Ctrl 加 鼠标 左 键 单 击 Sawyer 的 
终端 关节 〈 即 Sawyer_wrist_connector， 它 是 CoppeliaSim (V-REP) 中 的 一 个 力 传感器 ， 可 以 
用 于 连接 不 同 物体 ), 然后 单 击 “ 组 装 ” 按 钮 ， 如 图 16.4 所 示 。CoppeliaSim (V-REP) 提供 了 不 同 
种 类 的 连接 器 ， 这 里 的 力 传感器 只 是 其 中 一 种 ， 且 这 种 连接 器 在 关节 受到 的 真实 力 大 于 一 个 阅 值 
的 时 候 有 破碎 的 可 能 。 另 一 方面 ,我们 不 应 该 在 这 里 用 “组 合 /合并 ”(group/merge) 选项 , 这 是 为 
了 能 够 独立 控制 夹具 和 机 械 辟 。 更 多 关于 如 何 连 接 和 组 合 不 同 物 体 的 细节 可 以 查阅 CoppeliaSim 
CV-REP) 的 网 站 。 在 我 们 完成 以 上 过 程 后 ， 所 构建 场景 的 层级 〈Scene hierarchy) 应 当 如 图 16.5 
所 示 。 
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16.3 Sawyer HAE Aum ( 左 ) 和 组 装 的 夹具 BaxterGripper ( 右 ) ( Wü ) 


gins Mo Scenes Help 


o F 
| ego ed > |, i FY 





图 164 CoppeliaSim (V-REP) PAY “2822” (assemble ) 按钮 


构建 学 习 环境 


16.2 展示 了 CoppeliaSim (V-REP) 中 一 个 构建 好 的 场景 ， 相 应 文件 为 ./scenes/sawyer_ 
reacher_rl.ttt。 为 了 构建 这 个 最 终场 景 ， 我 们 需要 把 其 他 物体 添加 到 当前 只 包含 机 械 辟 和 夹 
的 场景 中 。 
首先 ， 我 们 通过 添加 (Add) -> BARK (Primitive shape) -> AS (Cuboid) 添加 一 个 
目标 物体 ， 调 整 它 成 为 我 们 想 要 的 尺寸 并 重 命 名 为 “目标 ”。 我 们 需要 双击 “目标 ”前 面 的 图 标 
并 选择 公共 (Common) -> HERB CRenderable) 来 使 得 物体 对 视觉 传感器 可 见 。 
在 以 上 步骤 之 后 ， 我 们 需要 添加 一 个 可 以 给 我 们 提供 定制 场景 视野 的 视觉 传感器 。 这 个 视觉 
传感器 可 以 在 模拟 过 程 中 一 直 拍摄 视野 的 图 像 ， 如 果 我 们 使 用 基于 图 像 的 控制 ， 那 么 这 个 视觉 传 
感 器 是 必需 的 〈 如 果 不 是 基于 图 像 的 控制 ， 我 们 可 能 不 需要 它 )。 如 果 我 们 在 场景 中 启用 这 个 视 
觉 传感器 ， 我 们 可 以 在 模拟 的 每 一 步 返回 图 像 。 为 了 设置 这 样 的 场景 ， 单 击 添加 CAdd) -> 视觉 
传感器 (Vision sensor) -> 视角 类 型 (perspective type) ， 然 后 右键 单 击 场景 ， 选 择 添 加 (Add) 
-> 浮动 视野 《Floating view)。 这 时 先 单 击 我 们 刚刚 创建 的 视觉 传感器 ， 然 后 右键 单 击 打 开 的 浮动 
视野 ， 选 择 视 图 〈View) -> 关联 视图 和 已 选择 的 视觉 传感器 (associate view with selected vision 
sensor)。 随 后 ， 我 们 手动 设置 添加 的 视觉 传感器 的 位 置 和 旋转 角度 ， 得 到 如 图 16.6 所 示 的 场景 。 

下 面 , 我 们 从 项 目 文件 夹 ./objects 中 拖 入 物体 文件 table.ttt。 通 过 单 击 物体 (Object) / 
物品 移动 Citem shift) 按键 ,我们 手动 设置 这 个 带 夹具 机 械 辟 的 位 置 和 目标 长 方 体 的 位 置 ， 使 得 
它们 位 于 桌子 上 方 ， 如 图 16.7 所 示 。 
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Scene hierarchy 


@ sawyer reacher rl (scene 4) © W 
E amera 










fault 


@ Sawyer | 
€ Sawyer target € 
gc 


yer jnintl 


Os 
arg s 


Camer 


W 
k0_visible 





@) Sawyer lnk6 visible 
-8 Sm nt7 





® Sawyerlink? 
© Sawyer tip 
S74 Sawyer link?. visible 


& Sawyer wristCamera 
$ Sawyer wrist connector 
5e @ BexterGripper | WW 


A 


Ix 











165 CoppeliaSim (V-REP) 中 任务 场景 的 层级 ， 包 括 Sawyer 机 械 臂 在 内 的 所 有 物理 模型 。 红 色 


箭头 表示 用 于 端点 控制 模式 的 反 向 运动 学 链 。 黑 色 字 体 表 示 场 景 











字体 表示 不 可 见 的 虚拟 物体 


Object/Itei 





166 在 CoppeliaSim (V-REP 








角 的 小 窗口 是 由 所 放置 的 相机 得 到 的 。 如 果 采 用 基于 图 




















可 见 的 物体 ， 而 灰色 








图 片 中 右上 











它 可 以 给 每 个 时 间 步 提供 





图 像 观察 量 ( 见 彩 插 ) 





像 的 控制 策略 并 调用 相机 ， 那 么 
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图 16.7 手动 改变 CoppeliaSim (V-REP) 中 物体 的 位 置 ( 见 彩 插 ) 














以 上 是 设置 环境 场景 的 过 程 ， 这 个 场景 给 我 们 提供 了 任务 中 可 以 看 到 的 实体 。 这 些 实体 的 动 

力学 过 程 将 遵从 物理 模拟 器 的 模拟 规则 。 除 此 之 外 ， 我 们 还 需要 给 在 环境 中 定义 控制 流程 和 奖励 
函数 (Reward Functions)， 通 常 包括 物体 移动 的 限制 条 件 〈 主 要 是 运动 类 的 任务 )、 一 个 训练 片段 
(Episode) 的 开启 和 结束 步 又、 初始 化 条 件 、 观 察 量 的 形式 等 。 在 我 们 的 Git 文件 中 ， 我 们 提供 
了 一 个 脚本 sawyer_grasp_env_boundingbox.py 用 来 在 场景 中 实现 这 些 功能 。 为 了 便于 之 后 应 
用 强化 学 习 算 法 进行 控制 ， 这 个 脚本 我 们 采用 与 OpenAI Gym 环境 相似 的 应 用 程序 接口 (APIs) 
我 们 上 面 构建 的 场景 本 身 是 静态 的 ， 而 这 个 控制 脚本 可 以 为 它 提供 控制 动力 学 过 程 的 功能 〈 除 了 
模拟 器 中 实现 的 物理 过 程 )。 对 于 这 个 机 器 人 抓 取 任务 ， 我 们 使 用 正 向 运动 学 〈 直 接 控 制 关 节 运 
动 速度 ) 的 控制 机 制 来 控制 机 械 臂 。 我 们 也 使 用 不 同 配置 方式 实现 了 一 个 通过 反 向 运动 学 实现 控 
制 的 (控制 机 械 辟 终端 位 置 ) 的 场景 。 反 向 运动 学 控制 通常 需要 求 一 个 描述 关节 角度 和 机 械 臂 端 
点 位 置 关系 的 雅 可 比 〈Jacobian) 和 矩阵 的 逆 ， 这 个 功能 在 PyRep 中 也 有 支持 。 更 多 关于 反 向 运动 
学 设置 的 细节 超出 本 书 范围 。 我 们 提供 的 例子 程序 中 的 脚本 定义 的 动力 学 过 程 和 机 器 人 控制 可 以 
支持 以 上 两 种 控制 机 制 。 
注意 : 实践 中 ， 当 你 尝试 构建 自己 的 机 器 人 模型 或 用 不 同 的 组 件 组 装 定制 机 械 辟 的 时 候 ， 你 
需要 小 心机 械 臂 上 不 同 模块 的 组 装 顺 序 和 依赖 关系 。 这 与 CoppeliaSim(V-REP〉 软 件 对 动态 和 
静态 组 件 〈 比 如 反 向 运动 学 中 的 Sawyer_tip 是 一 个 静态 组 件 ) 的 一 些 要 求 有 关 。 细 节 参 考官 方 
网 站 4。 
在 CoppeliaSim (V-REP) 中 设置 好 环境 场景 之 后 ， 我 们 需要 用 PyRep 软件 包 写 一 个 定义 环 
境 中 动力 学 过 程 和 奖励 函数 的 控制 脚本 。 我 们 的 仓库 中 提供 了 定义 环境 的 代码 。 下 面 几 小 节 中 我 
们 将 介绍 项 目 中 用 到 的 函数 和 模块 。 

环境 脚本 中 的 模块 

导入 所 需 软件 包 并 设置 下 面 需要 的 全 局 变量 。 
































































































































































































































































































































































































































4 链接 见 读者 服务 
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10.1 


机 器 人 模拟 








from os.path import dirname, join, abspath 


from pyrep 


from pyrep.r 


from pyrep.r 


from pyrep.o 


from pyrep.o 


from pyrep.o 


from pyrep.o 


from pyrep.c 


import PyRep 


obots.arms.sawyer import Sawyer 
obots.end_effectors.baxter_gripper import BaxterGripper 
bjects.proximity_sensor import ProximitySensor 
bjects.vision_sensor import VisionSensor 

bjects.shape import Shape 

bjects.dummy import Dummy 


onst import JointType, JointMode 


import numpy as np 


import matplotlib.pyplot as plt 


import math 


POS MIN, POS MAX = [0.1, -0.3, 1.], [0.45, 0.3, 1.] # E WERE 








所 定义 机 器 人 抓 取 任务 环境 类 的 整体 结构 显示 如 下 。 这 里 所 有 的 函数 都 在 类 ， 








在 后 文 ! 








FRA 











PEE 








简写 ， 我 们 将 





class GraspEnv(object): 


# Sawyer 机 器 人 抓 取 物 块 


def __init__(self, headless, control_mode=’ joint_velocity’): 


# :headless: bool, WRX True, HATAK; 否则 有 可 视 化 


# :control mode: str, 'end position' *’ joint_velocity’ 





def _move(self, action, bounding_offset=0.15, step_factor=0.2, max_itr=20, 


max_error=0.05, rotation norm =5.): 





LE 


abis 


关 现 的 ， 而 非 使 用 solve ikO 


# 对 于 "end_position” #x, AR mW: 
# 置 
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# 模式 : 闭环 比例 控制 ， 使 用 反 向 运动 学 











# 参数 : 

# :bounding offset: 有 效 目 标 位 置 范围 外 的 边界 方 框 所 用 的 偏 移 量 ， 作 为 有 效 且 安全 的 动作 
# 范围 

# :step factor: 小 步 长 因子 ， 用 来 乘 以 当前 位 置 和 位 置 的 偏差 ， 即 作为 控制 的 比例 因子 

# :max_itr: 最 大 移动 迭代 次 数 

# :max_error: 每 次 调用 时 移动 距离 误差 的 上 边界 

# :rotation norm: 用 来 归 一 化 旋转 角度 值 的 因子 ， 由 于 动作 对 每 个 维度 有 相同 的 值 范 围 ， 角 
# 度 需 要 额外 处 理 


def reinit(self): 
# 重新 初始 化 环境 ， 比 如 可 当 夹 其 在 探索 中 破损 时 调用 





def reset(self, random_target=False): 
# 重 置 夹具 位 置 和 目标 位 置 


def step(self, action): 
# 根据 动作 移动 机 械 臂 : 如 果 控 制 模式 为 "joint_velocity'， 则 动作 是 7 维 的 关节 速度 值 +1 
# 维 的 夹具 旋转 值 ， 如 果 控 制 模式 为 "end_position'， 则 动作 是 3 Rm RE ma 位置 
# +1 维 夹具 旋转 值 


def shutdown(self): 
# 关闭 模拟 器 








第 一 步 是 初始 化 环境 ， 包 括 设置 共用 变量 ， 如 __init__ (0) 函数 所 定义 的 一 样 : 





T 
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def . init. (self, headless, control mode-' joint velocity'): 
# BR: 
# :headless: bool, 47; True， 则 没有 可 视 化 ; 否则 有 可 视 化 


# :control mode: str, 'end position' 或 "joint_velocity'” 


# 设置 公共 变量 


16.1 机 器 人 模拟 





self.headless = headless # # headless i True， 则 无 可 视 化 
self.reward offset = 10.0 # 抓 到 物体 的 改 


self.reward_range = self. renard orfopi # 奖励 值 域 








self.penalty_offset = 1. 
self.fall_down_offset = 
self.metadata-[] # gym 7 





self.control_mode = control_mode 
# 机 械 臂 控制 模式 : 'end position' ®’joint_velocity’ 








| 


函数 __init_O 的 第 二 部 分 是 设 定 和 启动 场景 ， 并 设置 场景 中 物体 相应 的 代理 变量 : 























self.pr = PyRep() # 调用 PyRep 












if control mode == 'end position': # 所 有 关节 都 了 的 位 置 控制 模式 
SCENE_FILE = join(dirname(abspath(__file__)), 
' ./scenes/sawyer reacher rl new ik.ttt') 4 使 用 反 向 运动 学 控制 的 场景 
elif control mode == 'joint velocity': # 所 有 关节 都 以 正 向 运 的 力 或 力矩 方式 进行 的 


# 速度 控制 模式 
SCENE FILE = join(dirname(abspath(__file__)), 


'./scenes/sawyer reacher rl new.ttt') # 使 用 





self.pr.start() # Bu 






[22 FN AL 
self.gripper = BaxterGripper() # 得 到 场景 中 


self.agent = Sawyer() # 得 





self.gripper left pad = Shape(’BaxterGripper_leftPad’) # 夹具 手指 上 的 诺 护 热 

self.proximity_sensor = ProximitySensor('BaxterGripper attachProxSensor') 
# 传感器 名 称 

self.vision sensor = VisionSensor(’Vision_sensor’) # (f 

self.table = Shape(’diningTable’) # +7 


if control mode == 'end position': # : 





景 中 的 桌子 ， 
it 机 械 HI "n L 
self.agent.set control loop enabled(True) # #4 False, WA 


E 










Ea 
工作 





self.action_space = np.zeros(4) 
# 3 自由 度 的 端点 位 置 控制 和 1 自由 度 的 夹具 旋转 控制 
elif control_mode == ’joint_velocity’: 
# 通过 直接 设置 每 个 关节 速度 来 用 正 向 
self.agent.set control loop enabled(False) 














学 控制 机 械 辟 


self.action_space = np.zeros(7) 
#7 自由 度 速 度 控 制 ， 无 须 额 外 控制 端点 旋转 ， 第 7 个 关 j 





else: 
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raise NotImplementedError 


self.observation_space = np.zeros(17) #7 个 关 





self.agent.set_motor_locked_at_zero AS 





self.target = Shape('target') # 得 到 目标 





self.agent_ee_tip = self. agent: get- PN 
# 机 械 的 作为 有 






self.tip target = Dummy('Sawyer target') # 末端 (机 械 书 
self.tip pos = self.agent ee tip.get position() £ K x, y, z 位 置 





函数 __init_O 的 第 三 部 分 是 设置 合适 的 初始 机 器 人 姿势 和 末端 位 置 : 

















if control_mode == ’end_position’: 
initial_pos = [0.3, 0.1, 0.9] 


self.tip_ target. set ee LAUR pos) # 设置 目标 





置 reset_dynamics=True 就 
self.tip_target.set soriensat tonc (Qs! np.pi,np.pi/2], reset dynamics-True) 


# 前 两 个 沿 着 x 和 y 轴 





self.initial_tip_positions = self.initial_target_positions = initial_pos 
elif control mode == 'joint velocity': 
self.initial joint. positions = [0.0, -1.4, 0.7, 2.5, 3.0, -0.5, 4.1] 
# 个 合适 的 20] pi XK A 





self.agent.set_joint_positions(self.initial_joint_positions) 
self.pr.stepO 




















如 下 所 示 是 一 个 获得 观察 状态 的 函数 , 包括 关节 位 置 和 速度 , 以 及 目标 物体 的 三 维 空间 位 置 ， 
总 共 17 维 。 




















def iia ARA 








return np.array(self.agent.get joint positions() + # 1ist， 维 数 为 
self.agent.get joint velocities() + # 1ist， 维 数 为 7 
self.target.get_position()) # 1ist， 维 数 为 









































个 决定 夹具 是 否 抓 到 物体 的 函数 被 定义 为 _is_holding()， 通 过 夹具 护 垫上 的 碰撞 检测 
和 近 距 离 传 感 器 来 决定 物体 是 否 在 夹具 内 。 





























def _is ea 
# 返回 抓 取 





398 


16.1 机 器 人 模拟 








今 测 不 总 是 准确 的 ， 对 于 连续 碰撞 帧 ， 可 能 只 有 开始 的 4—5 Wü 可 以 被 检测 到 


pad_collide_ MUN - self.gripper. left. pad.check collision(self.target) 





if pad collide object and self.proximity_sensor.is_detected(self.target)==True: 
return True 
else: 


return False 








函数 _move() 可 以 在 有 效 范 围 内 通过 反 向 运动 学 模式 操控 移动 机 械 臂 末端 执行 器 。PyRep 
中 可 以 通过 在 机 械 臂 末端 放置 一 个 部 件 来 实现 以 反 向 运动 学 控制 末端 执行 器 ， 有 具体 做 法 是 设置 这 
个 末端 部 件 的 位 置 和 旋转 角 。 如 果 调 用 pr.stepO 函数 ， 那 么 在 PyRep 中 机 械 臂 关节 的 反 向 运 
动 学 控制 可 以 自动 求解 。 由 于 单个 较 大 步 长 的 控制 可 能 是 不 精确 的 ， 这 里 我 们 将 整个 动作 产生 的 
位 移 运 动 分 解 为 一 系列 小 步 长 运动 ,并 采用 一 个 有 最 大 迭代 次 数 和 最 大 容错 值 的 反馈 控制 闭环 来 
执行 这 些小 步 长 动作 。 

























































































































































































def _move(self, action, bounding_offset=0.15, step_factor=0.2, max_itr=20, 


max_error=0.05, rotation norm =5.): 





Y HE GERE SER 


而 非 使 用 solve ikO M2, AA 


人 es, FAR HY 





+ ++ HH ck 








， 作 为 有 效 且 安全 的 动作 


:bounding_offset: 
范围 
piano tache 用 来 乘 以 当前 位 置 和 目标 位 置 的 偏差 ， 即 作为 控制 的 比例 因子 


:max_itr: 





:max_error: 


:rotation_norm: 用 来 归 一 化 旋转 角度 值 的 因子 ， 由 于 动作 对 每 个 维度 有 相同 的 值 范围 ， 


+ + E HH HH db H H 


角度 需要 额外 处 理 


pos=self.gripper.get_position() 





# 检查 状态 AR ATEN, ES, 


, 





# x_min < x < x_max H y_min < y < y_max H z > z min 

if pos[0]+action[0]>POS_MIN[0]-bounding_offset and 
pos[0]+action[0]<POS_MAX[0]+bounding_offset \ 
and pos[1]+action[1] > POS_MIN[1]-bounding_offset and pos[1]+action[1] < 
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POS_MAX[1]+2*bounding_offset \ 
and pos[2]+action[2] > POS MIN[2]-2*bounding offset: # z WARA mE 


# 物体 的 set_orientation() 和 get orientationO 之 间 有 一 个 错 配 情况 ， 
# set orientation() 中 的 (x, y, z) 对 应 get_orientation() 中 的 Cy, x, -z) 
ori_z=-self.agent_ee_tip.get_orientation() [2] 
# 减 号 是 因为 set orientation() 和 get_orientation() 之 间 的 错 配 
target pos = np.array(self.agent_ee_tip.get_position())+np.array(action[:3]) 
diff=1 # 初始 化 
itr=0 
while np.sum(np.abs(diff))>max_error and itr<max_itr: 
itr+=1 
# 通过 小 步 来 至 


cur_pos = self.agent_ee_tip.get_position() 





diff=target_pos-cur_pos # 当前 位 置 和 目标 位 置 差异 ， 进 行 闭环 控制 
pos = cur_pos+step_factor*diff 

# 根据 当前 差异 迈 一 小 步 ， 防 止 反 向 
self.tip_target.set_position(pos.tolistQ) 
self.pr.stepO # 每 次 设置 末端 目标 位 置 ， 需 调用 模拟 步 来 实现 





四 
FTG YA OK Ae 








步 即 可 ， 但 是 由 于 反 向 去 
ori_z+=rotation_norm*action[3] 

# 归 一 化 旋转 值 ， 因 为 通常 在 策略 中 对 旋转 和 位 移 的 动作 范围 是 一 样 的 
self.tip target.set orientation([0, np.pi, ori z]) 

# 使 夹具 向 下 并 沿 z 轴 旋 转 ori_z 
self.pr.step() £ 模拟 步 





所 以 还 是 存在 小 误 关 





# 对 oz d 








else: 


print("Potential Movement Out of the Bounding Box!") 
界 方 框 ， 动 作 不 会 执行 





pass # 如 果 潜 在 

















这 里 提供 了 一 个 可 以 重新 初始 化 场景 的 函数 。 





def reinit(self): 
# 重新 初始 化 环境 ， 
self.shutdown() # 
self.__init__(self.headless) # 以 相同 的 headless 模式 进行 初始 化 
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如 下 是 一 个 能 够 重 置 场景 中 目标 物体 和 机 械 臂 的 函数 。 














def reset(self, random_target=False): 
# 重 置 夹具 位 置 和 目标 位 置 





if random_target: # 随机 化 
pos = list(np.random.uniform(POS MIN, POS_MAX)) # 从 合理 范围 的 均 义 分布 
self.target.set_position(pos) # 随机 位 置 

else: # 无 随机 化 





self.target.set_position(self.initial_target_positions) # 固定 





self.target.set_orientation([0,0,0]) 
self.pr.stepO 





21: 
LË 


# 把 末端 


if self.control mode == 'end position': # JointMode.IK 





self.agent.set control loop enabled(True) £ X5 





self.tip target.set position(self.initial tip positions) 


# AE 式 或 力 / 力 和 矩 模式 开启 ， 所 以 无 法 直接 设置 








max_itr=10 


while np.sum(np.abs(np.array(self.agent ee tip.get. position()- 
np.array(self.initial_tip_positions))))>0.1 and itr«max itr: 
itr4-1 


self.step(np.random.uniform(-0.2,0.2,4)) £ * 





机 动作 来 防止 卡 住 的 情况 


self.pr.stepO 


elif self.control mode == 'joint velocity': # JointMode.FORCE 
self.agent.set joint positions(self.initial joint. positions) 
self.pr.stepQ 


= 
noun 


# 设置 可 碰撞 (collicable) 模式 ， 用 于 碰撞 ; 





self.gripper_left_pad.set_collidable(True) 





#KREKAPRA MeN, MTT iil ae 


self.target.set_collidable(True) 
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全 打开 ， 将 其 完全 打开 
if np.sum(self.gripper.get_open_amount())<1.5: 


self.gripper.actuate(1, velocity=0.5) 


# WAKA 





self.pr.stepO 


return self. get state() # 充 回 环境 当前 状态 


LNs 


















































如 其 他 环境 COpenAI Gym 等 ) 中 经 常 使 用 的 stepO 函数 ， 在 我 们 这 里 的 环境 中 也 会 用 到 。 
这 个 函数 需要 相应 的 动作 值 作为 输入 。 如 果 机 器 人 是 由 end. position 模式 使 用 反 向 运动 学 控制 
的 ， 它 需要 调用 之 前 定义 的 _move() 函数 来 执行 动作 ;如 果 机 器 人 是 由 joint velocity 模式 
通过 正 向 运动 学 控制 的 ， 那 么 机 械 臂 上 的 关节 位 置 可 以 直接 被 设 定 。 


















































































































































def step(self, action): 
# 根据 动作 移动 机 械 展 





E "n 
| 


fibres Gap ab icy "um 
EU A’ joint_velocity’, 7 





HB bfe ly Se ab ds 
FÆ 7 维 有 的 天 d 


E 3 dX CALA 








# 初始 化 
done-False # A Fx 
reward=0 
hold flag-False # 是 否 抓 住 物 体 的 标 
if self.control mode == 'end position': 
if action is None or action.shape[0]!-4: # /$ 是 否 合理 





print(’No actions or wrong action dimensions!’) 
action = list(np.random.uniform(-0.1, 0.1, 4)) # 随机 
self._move(action) 


elif self.control mode == 'joint velocity': 


if action is None or action.shape[0]!=7: £ 检 





print('No actions or wrong action dimensions!’) 


action = list(np.random.uniform(-0.1, 0.1, 7)) # EJ 





self.agent.set joint target velocities(action) # 机 横 
self.pr.stepO 


else: 


raise NotImplementedError 
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除了 移动 机 械 臂 , 奖励 函数 (Reward Function). 吸收 状态 (Absorbing State). 结束 信号 (done) 
和 其 他 像 标记 物体 被 持 有 状态 的 信息 等 也 是 通过 stepO 函数 实现 的 ， 如 下 所 示 。 成 功 抓 取 物体 
的 奖励 是 一 个 正 数 ， 而 物体 掉 落 桌面 的 第 加 是 一 个 同样 数值 大 小 的 负数 。 这 构成 了 一 种 稀 玻 奖励 
机 制 ， 而 可 能 对 智能 体 来 说 很 难 学 习 。 所 以 我 们 添加 了 距离 上 的 惩罚 项 来 辅助 学 习 。 这 个 惩罚 项 
的 值 是 末端 执行 器 到 目标 物体 的 距离 ， 同 时 我 们 也 惩罚 夹具 与 桌面 的 碰撞 来 避免 夹具 损坏 。 这 构 
成 了 一 个 密集 奖励 函数 。 然 而 ， 我 们 要 知道 密集 奖励 函数 可 能 跟 最 终 的 任务 目标 有 出 入 ， 而 我 们 
的 目标 是 让 机 器 人 抓 取 目标 物体 。 由 于 距离 惩罚 项 正比 于 夹具 和 物体 中 心 的 距离 ， 它 会 促使 夹具 
人 可 能 地 接近 物体 中 心 ， 而 这 可 能 导致 不 合适 的 抓 取 姿态 。 更 多 关于 这 种 奖励 函数 与 强化 学 习 任 
务 目 标 之 间 的 分 卜 可 以 参考 第 18 章 中 的 讨论 。 由 于 这 个 原因 , 我 们 需要 对 奖励 函数 进行 修正 ， 比 
如 设 定 一 个 位 于 目标 物体 上 方 的 位 置 偏 移 量 《〈 虚 拟 目 标点 ) 来 取代 目标 物体 的 中 心 ， 我 们 将 在 随 
后 的 几 小 节 中 进行 相关 讨论 。 
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ax, ay, az = self.gripper.get_position() 





if math.isnan(ax): # 捕捉 探索 中 夹具 破损 





print('Gripper position is nan.’) 
self.reinit() 
done=True 
tx, ty, tz = self.target.get_position() 
sqr_distance = (ax - tx) ** 2 + (ay - ty) ** 2 + (az - tz) ** 2 
# 具 和 目标 物体 的 距离 的 平方 


# 在 夹具 与 物体 足够 近 且 物体 被 ; 





检测 到 时 关闭 夹具 

if sqr_distance<0.1 and SN True: 
# 确保 抓 取 之 前 夹具 是 打开 的 
self.gripper.actuate(1, velocity=0.5) 
self.pr.stepQ 
self.gripper.actuate(0, USTs 0.5) 


# 如 果 结 束 了 


J: RR 





; 速度 0.5 可 以 确保 夹具 在 一 帧 内 关闭 
self.pr.stepO # 物理 模拟 器 前 进 


if self. is holdingO: 
reward += self.reward offset 4 JE E BE X j 
done-True 
hold flag - True 

else: 
self.gripper.actuate(1, velocity-0.5) 
self.pr.stepO 
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elif np.sum(self.gripper.get_open_amount())<1.5: # 如 
# 关闭 的 (或 未 完全 打开 )， 打 开 它 ; get_open_amount() 3% | 
self.gripper.actuate(1, velocity=0.5) 


self.pr.stepO 





else: 
pass 
# EAR 5 REY f 
reward -= np.sqrt(sqr_distance) 





3 物体 掉 落 桌面 的 情况 

if tz < self.initial_target_positions[2]-self.fall_down_offset: 
done = True 
reward = -self.reward_offset 






eH AEN AE d 


# NONE E 
if self.gripper_left_pad.check_collision(self.table): 


reward -= self.penalty_offset 





if math.isnan(reward): # 捕捉 数值 问题 


reward = 0. 


return self._get_state(), reward, done, {’finished’: hold_flag} 








用 于 关闭 环境 的 函数 相对 简单 : 














[25 








def shutdown(self): 


# 关闭 模拟 器 
self.pr.stopQ 
self.pr.shutdown() 



































器 人 关节 位 置 的 初始 化 选取 了 可 以 避免 较 复杂 机 器 人 姿态 的 方式 , 机 












































在 以 下 实验 中 ， 我 们 采用 如 下 关于 上 面 抓 取 任务 的 基本 设 定 : 目标 物体 的 初始 位 置 是 固定 的 ; 机 























器 人 是 通过 正 向 运动 学 模式 








来 控制 关节 速度 的 ， 机 器 人 的 控制 是 基于 数值 状态 的 ， 包 括 关 节 位 置 、 关 节 速 度 和 目标 位 置 作为 
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端 位 置 ， 使 用 原始 图 像 进行 基于 视觉 的 控制 或 用 它 与 部 分 的 数值 状态 相 结合 ， 使 月 
































为 观察 量 ， 或 者 设置 任务 使 其 更 加 困难 和 复杂 ， 等 等 。 
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但 是 读者 可 以 随意 更 改 这 些 设 置 使 其 更 复杂 ， 比 如 使 用 反 向 和 运动 学 模式 来 控制 机 器 人 未 








日 更 少 的 信息 作 


162. ”强化 学 习 用 于 机 器 人 学 习 任 务 





在 项 目 








文件 中 ，Sawyer 抓 取 任 务 的 环境 可 以 用 以 下 命令 来 测试 : 





python sawyer_grasp_env_boundingbox. py 





16.2 ”强化 学 习 用 于 机 器 人 学 习 任 务 























上 述 基 于 正 向 运动 学 控制 的 机 器 人 学 习 环境 有 




















个 控制 关节 速度 的 7 维 连 续 动 作 空 间 ， 以 及 








































































































个 相对 复杂 的 












































一 个 17 维 连续 状态 空间 ， 因 此 相 比 于 之 前 第 5 章 和 第 6 章 中 的 例子 而 言 ， 这 是 
环境 。 并 且 ， 机 器 人 模拟 系统 的 复杂 性 使 得 采样 过 程 需 要 耗费 相当 长 的 时 间 。 这 使 得 通过 单线 程 
或 单 进程 框架 在 较 短 时 间 内 训练 一 个 相对 好 的 策略 很 困难 。 实 践 中 ， 我 们 发 现 策略 学 习 速 度 的 瓶 
颈 主要 在 于 CoppeliaSim (V-REP) 的 模拟 过 程 ， 如 果 只 用 单 进 程 采 样 ， 就 会 使 得 整个 学 习 过 程 非 
常 低 效 。 我 们 需要 并 行 的 离线 训练 框架 来 改善 这 个 任务 的 采样 速度 。 

在 这 个 项 目 中 , 我 们 使 用 并 行 的 柔性 Actor-Critic (Soft Actor-Critic, SAC) 算法 , 使 用 的 是 第 





















































13 章 的 项 目 中 的 并 行 框架 。SAC 算法 的 详细 介绍 在 第 6 章 ， 包 括 到 




















短 地 



































E 论 和 实现 方法 ， 所 以 这 里 只 简 
































用 对 角 
E (Deep Deterministic Policy Gradient) 算法 更 
子 进行 适应 性 学 习 的 方法 (Haarnoja et al., 2018) 
来 进行 炉 正则 化 ， 这 对 像 机 器 人 抓 取 这 类 难以 训 


高 其 









































后 。 
ANA 


(Gaussian) 策略 来 应 对 高 维 连续 动作 空间 ， 并 且 它 在 训练 








HIRE SAC 算法 的 原因 和 优点 所 在 。 作 为 一 种 离线 策略 COff-Policy) 学 习 算 法 ，SAC 使 












































比 其 
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也 像 深度 确定 性 策 














MERE, It 


El yy. 
HE 





加 稳定 并 









































法 采用 离线 策略 的 学 习 方式 ， 所 以 它 在 实践 中 可 以 


























较 方便 地 改 成 } 


行 版 本 。 























采用 了 并 行 的 采样 进程 ， 让 机 器 人 基于 上 






































即使 采 
果 只 使 用 稀疏 奖励 则 会 难 

















E 上 加 难 。 为 了 进一步 促进 学 习 过 程 ， 











也 很 困难 ， 如 
启发 式 增强 。 首 先 ， 目 标 物体 是 一 个 长 方 体 ， 由 于 























它 的 























能 调整 方向 使 其 垂直 于 物体 长 边 来 夹 取 ， 并 且 朝 向 
个 额外 的 惩罚 项 如 下 : 











= 
需要 


长 边 要 长 于 夹具 的 天 
向 下 。 因 此 ， 我 们 在 奖 








外 定义 的 密集 奖励 探索 一 个 好 的 物 
我 们 对 奖励 函数 进行 
F 合 宽度 ， 所 以 来 








大 








1 o 





它 也 采用 柔性 Q-Learning (Soft Q-Learning) 
E 务 来 说 可 以 促进 探索 。 还 有 ， 





1 于 SAC 算 














体 抓 取 姿势 





























IR 











励 函数 上 添加 了 一 








## 7 

# VER J 7 E Ze 

desired_orientation = np.concatenate(([np.pi, 0], [self.target.get_orientation() [2]])) 
# 夹具 与 目标 垂直 ， 并 且 朝 下 

rotation penalty = -np.sum(np.abs(np.array(self.agent_ee_tip.get_orientation())- 


desired_orientation) ) 
rotation_norm = 0.02 


reward += rotation_norm*rotation_penalty 





























其 次 ， 如 上 所 述 ， 将 夹具 和 物体 之 间距 离 的 负数 作为 奖励 函数 的 一 部 分 可 能 会 导致 非 最 优 的 夹 取 


405 


第 16 章 模拟 环境 中 机 器 人 学 习 











姿势 。 所 以 第 二 个 奖励 函数 上 的 修正 是 通过 设置 目标 物体 中 心 上 方 一 个 偏 移 量 的 位 置 作为 零 惩 神 
点 的 ， 这 个 对 距离 项 的 修改 如 下 所 示 : 






































# 对 目标 位 置 的 Wh. 目标 位 置 相对 目标 物体 有 垂直 方向 上 的 相对 偏 移 
offset=0.08 # H = 
sqr_distance = (ax - tx) ** 2 + (ay - ty) ** 2 + (az - (tztoffset)) ** 2 


# 夹具 和 目标 位 置 距离 








的 平方 


























通过 以 上 两 种 对 奖励 函数 的 增强 ， 学 习 效 果 相 比 于 原始 的 密集 或 稀疏 奖励 的 情况 得 到 进一步 提 
升 ， 如 图 16.8 所 示 。 
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学 习 曲 线 (密集 奖励 ) 
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学 习 曲 线 (增强 密集 奖励 ) 
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成 功 
Bt ,| 一 SEDEM 
ROOT 一 密集 奖励 
molo eee 
0 250 500 750 1000 1250 1500 1750 2000 
训练 片段 
A168 使 用 SAC 算法 并 行 训 练 的 gawyer 机 器 人 抓 取 任务 的 学 习 表 现 ， 使 用 不 同 奖励 函数 的 
比较 
































奖励 函数 工程 是 实践 中 一 种 有 效 结合 人 类 先 验 知识 来 辅助 学 习 的 方式 ,尽管 这 可 能 与 科学 有 
究 本 身 的 诉求 相 斥 ， 因 为 从 科研 的 角度 讲 ， 人 们 往往 更 加 专注 于 减少 奖励 函数 工程 的 工作 量 ， 以 
及 其 他 对 智能 体 学 习 的 人 为 辅助 ， 同 时 希望 实现 更 加 智能 和 自动 化 的 学 习 过 程 。 其 实 ， 在 实践 中 
曙 决 一 个 任务 ， 类 似 以 上 的 一 些 人 为 辅助 设计 可 能 会 很 有 帮助 。 除 了 奖励 函数 工程 ， 从 专家 示范 
学 习 也 是 实践 中 一 种 有 效 改 善 学 习 效果 的 方式 ， 如 第 8 章 所 述 。 
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16.2 ”强化 学 习 用 于 机 器 人 学 习 任 务 





16.2.1 并行 训 练 

CoppeliaSim (V-REP) 软件 需要 每 个 模拟 环境 有 一 个 独立 的 进程 。 因此 ,为 了 加 速 采样 过 程 ， 
我 们 设置 了 多 进程 而 非 多 线程 的 方式 来 并 行 收集 样本 。 我 们 的 代码 库 中 提供 了 一 个 通过 Py Torch 
实现 的 多 进程 版 本 的 SAC 算法 。 其 训练 和 测试 过 程 可 以 简单 地 运行 如 下 : 














































































































# i | 练 
python sac_learn.py --train 
# J 则 iX 


python sac learn.py --test 























在 这 个 代码 中 ， 环 境 的 交互 是 通过 多 个 进程 实现 的 ， 每 个 进程 包含 一 个 模拟 环境 。 


























16.2.2 FJAR 


我 们 测试 了 算法 在 Sawyer 抓 取 任务 上 的 表现 ， 并 在 表 16.1 中 给 出 了 训练 所 需 的 超 参数 。 学 
习 效果 如 图 16.8 所 示 ， 包 括 三 种 不 同类 型 的 奖励 函数 。 图 16.8 中 稀 朴 奖励 函数 下 的 值 -10 是 由 
物体 掉 落 桌面 的 惩罚 造成 的 。 不 同 的 奖励 函数 给 出 了 不 同 范围 的 奖励 值 ， 直 接 对 这 些 奖 励 值 曲线 
进行 比较 可 能 是 不 公平 的 。 除 给 出 平滑 的 ) 片段 奖励 外 ， 我 们 还 展示 了 整个 学 习 过 程 中 的 抓 取 
成 功率 。 随 着 训练 进行 ， 我 们 可 以 清楚 地 看 到 成 功 事件 发 生得 越 来 越 频繁 ， 这 显示 出 机 器 人 抓 取 
技能 的 进步 。 增 强 的 奖励 函数 对 比 原始 密集 奖励 函数 体现 了 显著 的 加 速 学 习 的 效果 ， 而 对 于 稀 琉 
奖励 来 说 ， 探 索 和 学 习 抓 取 物体 几乎 是 不 可 能 的 。 


&161 SAC 的 超 参数 















































































































































































































































参数 值 
优化 器 Adam (Kingma et al., 2014) 
学 习 率 3x10-4 
奖励 折扣 Cy) 0.99 
工作 者 (workers) 数量 
隐藏 层 数 〈 策 略 ) 



































隐藏 单元 数 〈 策 略 ) 
隐藏 层 数 〈Q 网 络 ) 
隐藏 单元 数 〈Q 网 络 ) 
批 尺寸 

H ba is 48 动作 维度 的 负 值 
缓存 尺寸 1 x 106 
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如 图 16.9 所 示 , 在 几 干 个 片段 的 训练 过 后 , 机 器 人 已 经 能 够 从 一 个 固定 的 目标 物体 位 置 将 其 








抓 到 ， 尽 管 抓 取 的 姿势 不 是 很 完美 且 

















始 的 ， 没 有 任何 的 示范 或 预 训 练 。 








16.2.3 PEIE 





成 功率 还 不 是 很 高 。 在 这 个 例子 中 ， 整 个 训练 过 程 是 从 头 开 











图 169 ”经 过 训练 ，Sawyer 在 模拟 环境 中 用 深度 强化 学 习 的 策略 抓 取 物 体 ( 见 彩 插 ) 


当 我 们 将 模拟 环境 中 训练 得 到 的 策略 用 于 现实 中 时 ， 由 于 现实 世界 动力 学 过 程 和 模拟 环境 中 














的 差异 ， 这 个 策略 往往 不 能 成 功 。 域 随机 化 是 改善 策略 泛 化 能 力 的 一 种 方法 ， 尤 其 是 当 我 们 将 模 
拟 环境 中 学 习 的 策略 迁移 到 现实 情景 中 时 。 





域 随机 化 可 以 通过 随机 化 环境 中 的 物理 






































参数 来 实现 , 包括 决定 机 械 臂 动力 学 及 其 与 场景 中 其 


他 物体 动态 交互 过 程 的 参数 。 具体 来 说 , 随机 化 物理 参数 叫 作 动力 学 随机 化 (Peng et al., 2018), 比 
如 ， 物 体 的 质量 、 机 械 辟 上 关节 的 摩擦 力 、 物 体 和 桌面 之 间 的 摩擦 力 等 。 并 且 ， 在 基于 视觉 的 控 





进行 控制 的 智能 体 。 比 如 ， 我 们 可 以 月 
































制 中 ， 物 体 颜 色 、 光 照 条 件 和 物体 材质 也 可 以 被 随机 化 ， 这 些 会 影响 通过 观察 机 器 人 图 像 来 对 其 














日 以 下 命令 在 PyRep 中 设置 物体 的 颜色 : 





self.target.set_color(np.random.uniform(low=0, high-1, size=3).tolistQ) 
# 为 目标 物体 颜色 设置 [mg b]3 通道 值 























其 他 模拟 环境 中 的 物理 参数 也 可 以 进行 相应 设置 ， 这 里 超出 了 本 章 范畴 。 在 训练 智能 体 时 ， 我 们 
可 以 在 整个 训练 过 程 中 对 每 个 片段 或 者 几 十 个 片段 进行 一 次 参数 重 设 置 。 同 时 ， 重 要 的 是 ， 要 保 








从 而 缓解 模拟 现实 间隙 。 














证 对 模拟 环境 中 动力 学 参数 和 其 他 特征 进行 随机 化 的 范围 要 能 够 覆盖 现实 中 真实 的 动力 学 过 程 ， 








域 随机 化 只 是 在 模拟 到 现实 迁移 中 缓解 现实 间隙 的 一 种 可 能 的 方式 ， 以 上 使 用 PyRep 在 


CoppeliaSim 中 进行 视觉 特 条 
细 描 述 在 第 7 章 中 。 
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随机 化 的 步 又 也 











只 是 一 个 很 简单 的 例子 。 关 于 模拟 到 现实 迁移 的 详 


16.2 ”强化 学 习 用 于 机 器 人 学 习 任 务 





16.2.4 机 器 人 学 习 基 准 


在 以 上 小 节 中 , 我 们 展示 了 如 何 构建 一 个 机 器 人 抓 取 任 务 ， 并 用 一 个 强化 学 习 算法 去 解决 它 。 
近来 ， 文 献 James et al., 2019b) 提出 了 RLBench 软件 包 (链接 见 读者 服务 )， 作 为 一 个 覆盖 100 个 
独立 的 人 为 设计 任务 的 大 规模 基准 和 学 习 环 境 。 这 个 软件 包 专 门 用 于 促进 基于 视觉 的 机 器 人 操控 
领域 的 研究 ， 不 仅 限于 强化 学 习 ， 而 且 可 以 应 用 于 模仿 学 习 、 多 任务 学 习 、 几 何 计算 机 视觉 和 小 
样本 学 习 。 如 图 16.10 5 所 示 ，RLBench 基于 前 几 节 所 用 的 PyRep， 它 包含 了 100 个 基本 的 机 器 
人 操控 任务 ， 包 括 抓 取 、 移 动 、 堆 积 和 其 他 多 样 的 现实 世界 中 常见 的 操作 ， 也 支持 通过 简单 的 设 
置 步骤 实现 任务 定制 化 ， 并 使 得 包括 强化 学 习 在 内 的 不 同 的 学 习 方法 可 以 用 来 解决 这 个 环境 中 的 
任务 。 



















































































Æ 16.10 RLBench 中 定义 的 机 器 人 学 习 任 务 ( MEH ) 














前 几 小 节 中 介绍 的 机 器 人 抓 取 任务 提供 了 一 个 用 CoppeliaSim (V-REP) 实现 模拟 环境 中 机 
器 人 学 习 的 标准 框架 ， 这 也 适用 于 RLBench 软件 包 。 它 们 都 包括 至 少 三 个 基本 要 素 : (D 在 
CoppeliaSim ( V-REP) 中 进行 任务 场景 的 构建 , (2) 通过 脚本 定义 环境 的 模拟 过 程 , 包括 resetO 
和 stepO 函数 ，(3) 通过 脚本 提供 一 个 能 够 学 习 的 智能 体 ， 比 如 用 强化 学 习 。RLBench 遵循 这 
种 构建 流程 ， 但 以 一 种 层次 化 的 结构 来 搭建 全 体 任务 。 

RLBench 软件 包 可 以 通过 以 下 命令 来 安装 〈 如 果 你 已 经 安装 了 PyRep ): 





















































git clone https://github.com/stepjam/RLBench.git 
pip3 install -r requirements.txt 


python3 setup.py install --user 





16.2.5 ”其 他 模拟 器 


如 图 16.11 所 示 ， 有 许多 不 同 的 机 器 人 学 习 模 拟 软件 ， 包 括 OpenAI Gym. CoppeliaSim (V- 
REP/PyRep) (James et al., 2019a; Rohmer et al., 2013). MuJoCo (Todorov et al., 2012). Gazebo, 











wv 





图 像 来 自 RLBench。 
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Bullet/PyBullet (Coumans et al., 2016, 2013)、Webots (Michel, 2004)、Unity 3D、NVIDIA Isaac SDK 
等 。 实践 中 , 这 些 软 件 包 或 者 平台 对 于 不 同 的 应 用 有 不 同 的 特征 。 举例 来 说 , OpenAI Gym robotics 
环境 是 一 个 相对 简单 的 环境 ， 可 以 快速 验证 提出 的 方法 CoppeliaSim 和 Unity 3D 都 是 基于 物理 
模拟 器 的 ， 且 有 着 相对 较 好 的 泻 染 效果 ; MoJoCo 有 较为 现实 和 准确 的 物理 引擎 ， 可 以 用 于 模拟 
到 现实 迁移 ，Isaac SDK 是 一 个 相对 较 新 的 软件 (于 2019 年 发 布 )， 对 深度 学 习 算 法 和 应 用 有 较 
强 的 支持 ， 以 及 基于 Unity 3D 的 照片 级 真实 的 演 染 ， 等 等 。 
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Z] 16.11 机 器 人 学 习 任 务 : ( 1 ) OpenAl Gym 中 的 FetchPush ( Æ 
到 达 任 务 ( ). RoboSuite 中 的 SawyerLift ES (Æ ) ( 


PR] 





) 使 用 PyRep 实现 的 目标 
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Arena: 多 智能 体 强 化 学 


习 平台 


















































种 定义 多 智能 体 间 社 会 结构 的 方式 ， 包 括 不 可 学 习 的 





在 这 一 章节 ， 我 们 将 介绍 一 个 名 为 Arena (Song et al., 2019) 的 用 于 研究 多 智能 体 强化 学 习 
(Multi-Agent Reinforcement Learning, MARL) 的 项 目 。 我 们 提供 了 一 些 上 手 经验 来 使 用 Arena 
工具 包 构 建 游戏 ， 包 括 一 个 单 智能 体 游 戏 和 一 个 简单 的 双 智 能 体 游戏 ， 并 采 月 
Arena 中 的 奖励 机 制 是 一 











不 同 的 奖励 机 制 。 


(Non-Learnable ) , 


AHL) Cisolated). ZFR (Competitive), AFA (Collaborative) 和 混合 型 的 《Mixed) 社会 关 


系 。 不同 的 奖励 机 制 可 
以 用 不 同 的 奖励 机 制 ， 
























































以 在 一 个 游戏 场景 中 用 于 同一 个 层次 性 结构 上 ， 不同 的 层次 性 结构 上 也 可 
































能 体系 统 的 复杂 关系 。 







































































配合 对 物理 单元 的 从 个 体 到 群体 的 结构 性 表示 ， 可 以 用 来 全 面 地 描述 多 智 
此 外 ， 我 们 也 展示 了 在 Arena 中 使 用 基准 库 的 过 程 ， 它 提供 了 许多 已 实现 












































的 多 智能 体 强化 学 习 算 法 来 作为 基准 。 通 过 这 个 项 目 ， 我 们 希望 给 读者 提供 一 个 有 用 的 工具 , 来 






































研究 在 定制 化 游戏 场景 ! 




















使 用 多 智能 体 强 化 学 习 算 法 的 表现 。 








Arena 是 一 个 在 Unity 上 对 多 体 智能 学 习 进 行 评估 的 通用 平台 。 它 使 用 多 样 化 逻辑 和 表示 方 


式 来 构建 学 习 环 境 ， 并 对 多 智能 体 复杂 的 社会 关系 进行 简单 的 配置 。Arena 也 包 
基准 的 实现 ， 可 以 帮助 读者 快速 验证 所 建立 的 环境 。 总 
一 个 帮助 读者 快速 创造 和 构建 包含 多 智能 体 社 会 关系 的 定制 化 游戏 环境 的 工 





多 智能 体 强化 学 习 算法 














能 体 问 题 。Arena 注重 于 第 一 人 称 或 第 三 人 称 动作 类 游戏 ， 借 助 于 Unity 极 好 的 泻 染 效果 来 实现 





















































含 对 最 先进 深度 
体 来 说 ，Arena 是 





























\， 用 以 探索 多 知 
































3D 仿真 环境 。 而 其 他 像 最 近 由 DeepMind 发 布 的 开源 项 目 OpenSpiel， 则 专注 于 多 智能 体 棋牌 类 


游戏 。 










































































Arena 中 有 两 个 主要 的 模块 : (1) 开发 工具 包 (the Building Toolkit)， 可 以 











制 特征 的 多 智能 体 环 境 ; 














来 快速 构建 有 定 














(2) 基准 库 (the Baselines), PJ UH MARL Sic i 














我 们 将 从 构建 Arena ! 








的 环境 开始 。 
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1 试 所 搭建 的 环境 。 








17.1 安装 











Unity ML-agents 工具 包 是 使 用 Arena 的 前 提 ， 需 要 在 使 用 Arena 之 前 将 其 安装 。Arena 完整 
的 安装 过 程 遵 循 开发 工具 包 和 基准 库 各 自 的 官方 网 站 。 
注意 ， 如 果 你 想 在 没有 图 形 用 户 界 面 〈 比 如 X-Server) 的 远程 服务 器 上 运行 或 者 你 无 法 访问 








X-Server， 那 么 你 就 需 


















































要 根据 17.3.1 节 中 或 Arena 官网 上 的 指示 来 设置 虚拟 显示 。 





安装 好 之 后 ， 我 人 


SDKVGameSet/ 文 件 中 ， 有 儿 十 个 已 构建 好 的 或 连续 或 离散 动作 空间 的 游戏 场景 。 它 们 是 预先 制 


] 可 以 发 现在 Arena 文件 夹 下 的 Arena-BuildingToolkit/Assets/Arena 

















作 好 的 ， 作 为 使 用 Arena 的 例子 ， 你 可 以 阅读 所 有 这 些 游戏 的 脚本 来 更 好 地 理解 Arena 是 如 何 工 
作 的 。 所 有 的 游戏 和 抽象 层 共用 同一 个 Unity 项 目 。 每 一 个 游戏 都 在 一 个 独立 的 文件 夹 中 ， 游 戏 
名 即 文件 夹 命 名 。ArenaSDK 文件 夹 存放 了 所 有 的 抽象 层 和 共享 代码 、 实 体 和 功能 。 整 体 代码 风 
格 与 Unity ML-agents 工具 包 尽 可 能 一 致 。 























17.2 FA Arena 开发 游戏 














我 们 将 使 用 Arena 开发 工具 包 内 提供 的 许多 现成 的 实体 和 多 智能 体 功能 ， 来 展示 一 个 多 智能 
体 游戏 的 构建 过 程 ， 它 不 需要 很 多 代码 。 在 你 开始 之 前 ， 我 们 希望 你 已 经 有 了 关于 Unity 使 用 的 














为 了 使 用 Arena， 
































基本 知识 。 因 此 ， 推 荐 你 先 完成 官网 上 的 roll-a-ball 教程 来 学 习 关于 Unity 的 一 些 基本 概念 。 


运行 Unity， 选 择 打开 项 目 ， 选 择 克 隆 或 下 载 的 “Arena-BuildingToolkit” 文 











件 。 第 一 次 打开 的 过 程 可 能 会 花费 一 定时 间 。 





我 们 可 以 看 到 Arena 文件 夹 下 几 十 个 建 好 的 游戏 。 它 们 是 预先 设计 作为 Arena 用 例 的 ， 你 可 
以 阅读 这 些 游戏 的 脚本 来 进一步 理解 Arena 是 如 何 工作 的 。 我 们 将 在 下 面 小 节 中 提供 搭建 这 些 游 





戏 的 基本 指导 。 









































AirHockey 


Assets > ArenaSDK > GameSet > 








ArenaCrawle 





ArenaCrawle... =e Boomer Capt 




















ahem á 















图 17.1 Arena 文件 中 提供 已 构建 的 游戏 
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17.2.1 


简单 的 单 玩 家 游戏 

















我 们 从 构建 一 个 基本 的 单 玩家 游戏 开始 : 
来 存放 游戏 。 在 这 部 分 中 ， 我 们 为 单 玩家 游戏 创建 名 为 “1P” 的 文件 夹 。 





。 创 建 一 个 文件 夹 


。 在 左边 的 “Hierarchy” 窗 口中 , 我 
MEI Assets/ArenaSDK/SharedPrefabs 
入 左边 的 “Hierarchy” 窗 口 , 如 图 17.3 所 示 。 注 

拖 虹 操作 来 使 用 任何 提前 定制 好 的 4 

其 他 组 成 部 分 需要 依附 在 它 下 面 。 











可 以 通过 简单 的 
整个 游戏 ， 因 此 

































































意 到 ， 这 些 预 于 











门 删 除 原 来 的 Main Camera 和 Directional Light. 将 Arena 
下 预制 的 GlobalManager (如 图 17.2 所 示 ) 拖 
1 物体 是 Unity 中 公用 的 模块 ， 
DAK. Arena 中 的 GlobalManager 管理 




















由 Assets > ArenaSDK > SharedPrefabs > 
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ID Font 























DebugDisturb — Destroyable 


有 LI | 


Playground — ScreemShotC.. TopDownCa. 














图 17.2 Arena 中 的 预制 模块 ( 见 


BGeGeteseevell 


彩 插 ) 








GlobalManag... HeartTower 








图 17.3 将 Arena 预制 模块 中 的 GlobalManager 拖 到 当前 游戏 的 “Hierarchy” 窗 口中 














。 下面 我 们 需要 放置 一 个 智能 体 的 运动 场所 ， 我 们 找到 Arena 中 名 为 PlayGroundWithDead- 
Walls 的 预制 模块 ， 然 后 将 它 附 于 GlobalManager 的 子 节点 World 上 。GlobalManager 也 





BASF 4 
展示 。 

。 与 上 面 类 似 ， 我 
ager， 如 图 17.5 














体 到 一 个 合适 的 位 置 ， 如 图 17.6 R. x 轴 、 











TopDownCamera 用 于 提供 























个 游戏 的 全 局 视 里 


。 这 一 步 在 图 17.4 中 有 所 





们 需要 从 Arena 预制 模块 中 选择 一 个 BasicAgent 并 将 其 附 于 GlobalMan- 





所 示 。 从 而 我 们 现在 得 到 一 个 在 场地 上 的 智久 

















E 体 ， 我 们 可 以 手动 拖 搜 智能 





























y 5 


和 z 5 


的 位 置 和 旋转 角 将 在 智能 体 的 







































































展示 。 





Transform 属性 ! 








.为 了 让 智能 体 正常 
































常 工作 ， 我 们 需要 设 定 游戏 参数 ， 如 图 17.7 所 示 。 这 里 我 们 只 需要 改变 














GlobalManager 中 的 Living Condition Based On Child Nodes。Living Condition 被 选择 为 
At Least Specific Number Living 而 At Least Specific Number Living 值 被 设 为 1。 由 于 我 们 
bE 体 数量 小 于 1 的 任何 情况 下 ， 这 














在 这 个 游戏 ! 


只 有 一 个 智能 体 ， 上 面 的 设置 保 订 











PT eA 











17.2 FA Arena 开发 游戏 





Assets > ArenaSDK > SharedPrefabs > Playground > 





174 选择 Arena 预制 模块 中 的 一 个 运动 场 ( Playground )， 并 将 它 附 于 GlobalManager 的 子 节 
点 上 ( 见 彩 插 ) 














175 选择 并 将 一 个 Arena 预制 模块 中 的 BasicAgent 附 于 GlobalManager 的 子 节点 上 ( 见 彩 
ta ) 











图 17.6 单个 智能 体 在 场地 上 的 场景 ( 见 彩 插 ) 








个 游戏 片段 (Episode) 就 会 结束 并 重启 。 现 在 我 们 需要 按 下 Play 按钮 来 开始 游戏 并 用 键盘 
上 的 “W，A，S，D” 操 作 智 能 体 移动 。 由 于 场地 的 一 边 是 “Dead Walls”， 智 能 体 无 论 何 
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图 17.7 进行 单 玩家 游戏 设置 





时 碰 触 它 都 会 结束 生命 并 且 重 新 开始 游戏 。 使 用 BasicAgent 时 也 会 有 很 多 其 他 性 质 ， 包 括 
不 同 的 Actions Settings. Reward Functions (H FRKA) 等 。 你 可 以 调试 它们 (在 当前 
这 个 游戏 中 只 有 Actions Settings 是 有 效 的 ) 来 熟悉 Arena 开发 工具 包 。 








17.2.2. 简单 的 使 用 奖励 机 制 的 双 玩 家 游戏 


在 这 一 小 节 ， 我 们 将 介绍 如 何在 游戏 场景 中 按照 社交 树 (Social Tree) 来 部 署 多 于 一 个 智能 
体 的 游戏 。 
。 首 先 , 让 我 们 从 上 面 的 单 玩 家 游戏 开始 。 如果 我 们 选择 GlobalManager 或 BasicAgent, 那么 
我 们 就 会 发 现 这 些 对 象 都 有 一 个 叫 作 Arena Node (Script) 的 脚本 ， 分 别 如 图 17.8 和 图 17.9 
所 示 ， 这 个 基本 概念 可 以 用 来 帮助 理解 Arena 游戏 中 定义 的 社会 关系 。 关 于 Arena Node 的 
描述 将 在 本 小 节 中 提供 。 














图 17.9 存在 于 BasicAgent 中 的 Arena Node (Script) 





。 我 们 选择 之 前 构建 的 BasicAgent 并 将 它 在 左边 “Hierarchy” 窗 口中 通过 Ctrl+C 和 Ctrl+V 
复制 ， 如 图 17.10 所 示 。 现 在 Global Manager 之 下 有 两 个 Arena Nodes， 因 此 我 们 需要 将 
两 个 BasicAgents 中 的 任 一 个 设置 Node ID 为 1 而 非 0 来 辨别 它们 《〈 见 图 17.11) 。 智 能 体 
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17.2 M Arena 开发 游戏 














在 场 ARK [ 


个 智能 

















17.11 














所 示 。 我 们 自 








性 奖 
Uff 


für 











的 形式 。 不 同 的 游戏 ， 
游戏 使 用 不 同 的 奖励 设置 。 举 例 来 说 ， 如 果 你 想 
达 目 标 类 的 任务 ， 那 么 可 以 设置 
Distance， 以 及 将 一 个 目标 物体 ] 





。 我 们 需要 寿 


活 到 最 后 ) 的 
的 智能 体 。 我 们 也 需要 取消 Is Reward Distance Gx ze: 
奖励 的 函数 ) 。 上 面 是 Arena 中 内 置 的 不 同 奖 
会 有 不 同 的 奖励 设置 来 表示 不 同 的 社会 关系 结构 。 你 可 
距离 来 解决 一 个 类 似 到 
于 距离 的 密集 奖励 来 实现 ， 通 过 
拖 到 Target 空格 中 来 设置 。 




















页 = M Arena Node (Script) 


k 


"Script 


s= merareny 








Create." | (EA ) 


VHP: 








Y  GlobalManager 
> Wp TopDownCamera 
b World 


图 





1710 在 GlobalManag 

































er 下 复制 BasicAgent 





的 位 置 可 以 被 移动 到 一 个 合适 的 位 置 ， 从 而 将 它们 区 分 开 ， 这 是 因为 复 和 


体会 有 相同 的 位 置 。 








ArenaNode 


Node Settings 


Node ID 


当 GlobalManager 下 









































才 会 继续 ;否则 游戏 将 终止 并 重新 开始 。 现 在 我 们 和 
要 一 个 智能 体 结束 了 生命 ， 游 戏 就 会 结束 ， 巴 
中 所 显示 的 奖惩 记录 ， 见 图 17.14。 

。 下 面 我 们 会 使 得 游戏 更 加 复杂 ， 我 们 想 要 两 队 各 上 




















Node Jj: 


ft "Hierarchy 
[本 附加 到 它 上 面 ， 如 


E GlobalManager 的 
Specific Number Living 7j 2, 4 











» ocu 


Ei 





智能 


m 














体会 得 到 一 个 正 的 奖励 


得 至 






































多 个 节点 时 需要 改变 节点 ID, 





机 我 们 选择 GlobalManager 、Arena Node (Script) 来 设置 游戏 的 奖励 函数 ， 如 
Pili Is Reward Ranking， 这 是 一 个 在 GlobalManager 下 | 

















j 于 设置 


所 后 的 两 





使 得 它们 各 不 相同 


图 17.12 


智能 体 竞争 


H H 








励 函 数 的 属性 。 我 们 也 将 Ranking Win Type 选择 为 Survive， 这 意味 着 最 后 结束 4 











日 














生命 














。 如 


ZR 


尔 选择 Depart， 奖 励 将 会 给 











THARE 








WT RE 


Biss 


体 到 目标 的 吕 
RAVE (有 





























励 机 制 ， 通过 


H 






































ES Be 











体 到 目标 的 








1‘ Ae 














个 基 


























多 





H 





17.13 所 示 ， 从 而 

















Ad 























L1 


ZN 

















Ad 





























智能 





[ 且 奖 励 或 惩罚 就 会 施加 给 体 








E 离 给 出 密集 





时 二 者 都 有 ) 
以 对 不 同 的 














FAJ Is Reward 


Living Condition Based On Child Nodes 下 设置 At Least 
有 当 至 少 两 个 智能 体 存活 时 ， 游 戏 





只 





， 如 Console 

















有 两 个 智能 体 来 互相 竞 久 




















o 














口 创建 一 个 空 的 对 象 并 将 了 
图 17.15 所 示 。 








首 


先 ， 我 们 





其 命名 为 “2 Player Team”。 随 后 我 们 将 Arena 
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1712 在 GlobalManager 下 设置 奖励 函数 





图 17.13 在 GlobalManager 中 设置 最 小 存活 智能 体 数 量 








17.14 ”给 每 个 智能 体 的 奖励 显示 在 Console 中 
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17.2 FA Arena 开发 游戏 





<3 8 8.8218 8.878 





1715 4% Arena Node 脚本 附加 到 队伍 ( Team ) 对 象 上 


。 现 在 我 们 将 两 个 之 前 的 BasicAgent 拖 到 新 创建 的 队伍 对 象 2 Player Team 中 。 随 后 我 们 复 
制 2 Player Team， 将 第 二 组 对 象 的 Node ID 从 0 改 为 1。 现在 我 们 有 队伍 和 智能 体 的 结构 
如 图 17.16 所 示 。 如 果 我 们 现在 单 击 Play 按钮 ， 我 们 将 会 看 到 两 个 各 有 两 个 智能 体 的 队伍 
在 场景 中 ， 如 图 17.17 所 示 。 








1716 Arena 的 GlobalManager 下 两 个 队伍 ( Teams ) 各 有 两 个 智能 体 ( Agents ) 的 
层次 性 结构 


。 由 于 GlobalManager 的 At Least Specific Number Living 被 设 为 2， 任 何 队伍 生命 的 结束 都 
会 造成 游戏 结束 。 由 于 2 Player Team 的 At Least Specific Number Living 默认 为 1， 只 有 
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当 同 一 个 队伍 中 两 个 智能 体 都 结束 生命 时 才 会 造成 队伍 的 生命 结束 。 我 们 也 可 以 设置 不 同 
的 游戏 逻辑 ， 如 果 我 们 设置 Player Team 的 Living Condition 为 All Living， 那 么 一 个 队 
伍 中 任何 智能 体 结束 生命 都 会 导致 队伍 的 生命 结束 ， 从 而 结束 整个 游戏 。 从 以 上 来 看 ， 通 
过 GlobalManager->Team->Agent 的 社交 树 结 构 ，Arena 基本 可 以 通过 定义 生存 和 奖励 机 
制 ， 使 用 Arena Node 支持 任意 类 型 的 社会 关系 。 












































图 17.17 两 个 各 有 两 个 智能 体 的 队伍 在 游戏 中 








17.2.3 ”高 级 设置 
奖励 机 制 


为 了 构建 复杂 的 社会 关系 ， 在 Arena 中 有 5 个 基本 的 多 智能 体 奖励 机 制 (Basic Multi-Agent 
Reward Schemes, BMaRSs) 来 定义 社交 树 上 每 个 节点 的 不 同 社交 范式 ， 包 括 : 不 可 学 习 的 (Non- 
Learnable，NL)、 独 立 的 (Isolated, IS), 竞争 的 (Competitive，CP)、 合 作 的 (Collaborative，CL)、 
竞争 和 合作 混合 型 的 (Competitive and Collaborative Mixed,，CC)。 具 体 来 说 , 每 个 BMaRS 是 一 个 
对 奖励 函数 的 限制 ， 因 此 它 与 能 产生 某 种 具体 社交 范式 的 一 批 奖励 函数 相关 。 对 于 每 个 BMaRS， 
Arena 提供 了 多 个 可 以 立即 使 用 的 奖励 函数 (稀疏 或 密集 ), 简化 了 有 复杂 社会 关系 的 游戏 构建 过 
程 。 除 提供 奖励 函数 外 ，Arena 也 提供 了 对 定制 化 奖励 函数 的 验证 选项 ， 从 而 可 以 将 编写 的 奖励 
函数 置 于 一 种 BMaRS 下 而 产生 相应 的 具体 社交 范式 。 我 们 将 详细 讨论 这 五 种 不 同 的 奖励 机 制 。 
首先 我 们 需要 给 出 一 些 预备 知识 。 我 们 考虑 基本 强化 学 习 中 定义 的 一 个 马尔 可 夫 (Markov) 
游戏 ， 它 包括 多 个 智能 体 ze 未 、 一 个 有 限 的 全 局 状态 空间 s, € S、 一 个 对 每 个 智能 体 z 的 有 限 
的 动作 空间 ast € As 和 一 个 对 每 个 智能 体 x 的 有 限 步 奖励 空间 rz te 了 及。 至 于 环境 ， 它 包括 一 
个 转移 函数 g:S x {4 :x EX} S, 这 是 一 个 有 随机 性 的 (由 于 Unity 模拟 器 的 随机 性 ) 函数 
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Stpl ^v g(suiil(se {azt : rc 4))) 和 一 个 对 每 个 智能 体 的 奖励 函数 fp :S x {Az :TE X) R. 
这 是 一 个 确定 性 函数 rety = fe (Se, {azt :XE 二 ,以 及 一 个 联合 奖励 函数 f= {foc e X RI 
对 每 个 智能 体 “ 在 联合 奖励 函数 /下 的 片段 奖励 RE = SP, rete 对 于 智能 体 来 说 , Arena 考虑 以 
下 情况 , 即 它 观察 srt € Sro 其 中 S, 包括 全 局 状态 空间 S 的 部 分 信息 。 因此, 策略 rz : Sy 一 Ay 
是 一 个 随机 性 函数 Get ~ rz(szi。 除 此 之 外 ，Arena 考虑 智能 体 x 能 够 从 一 个 策略 集合 IT, FOR 
取 一 个 策略 rz 。Arena 假定 所 有 采样 操作 的 随机 种 子 是 , 这 是 从 整个 种 子 空间 Kk 中 采样 得 到 的 。 


不 同 的 BMaRSs 定义 使 用 的 基本 概念 包括 ， 智 能 体 fos ze X). SE (m, : Tp}. BRET 
奖励 {RE : x e X) 和 联合 奖励 函数 F = (fip SRE X. Arena 中 五 种 不 同 的 
BMaRSs 通过 以 下 方式 定义 : 

1. 不 可 学 习 的 BMaRSs (FN) 是 一 个 联合 奖励 函数 集合 f> WTF: 






























































































































































= (f: Vk € K, Vx € X, Vn, € IL, ORI /On, = 0}, (17.1) 




















0 是 与 定义 rz 的 参数 空间 同样 大 小 和 形状 的 零 矩 阵 。 直 观 上 ，.FNL 意味 着 对 于 任何 智能 体 
r EX 改进 其 策略 rz 都 是 无 法 优化 RE 的 。 
2. 独立 的 BMaRSs (FS) 是 一 个 联合 奖励 函数 的 集合 如 下 : 









































ay 






= =O}, 


(17.2) 


9 J 
= {f: f €F™ and Vk € K, Vx € X, Va € XN {2}, Vn, € Il, Vn» € He, 























Hrp ^V" ER GH. EME, FS 意味 着 智能 体 x e X 接受 的 片段 内 奖励 RE 与 任何 其 他 智 
REIK x E X \ {x} 采取 的 策略 rz TKR. FS 的 上 中 的 奖励 函数 fu 在 其 他 多 智能 体 方法 (Bansal 
et al., 2018; Hendtlass, 2004; Jaderberg et al., 2018) 中 通常 被 称 为 内 部 奖励 函数 (Internal Reward 
Functions), ， 意 味 着 除了 施加 到 群体 层面 的 奖励 函数 〈 比 如 赢 输 ) ， 还 有 指引 学 习 过 程 去 取得 群 
体 层面 奖励 的 奖励 函数 。 和 群体 层面 奖励 可 能 很 稀疏 而 难以 学 习 ， 但 这 些 内 部 奖励 可 以 更 频繁 地 获 
取 ， 即 更 加 密集 (Heess et al., 2017; Singh et al., 2009, 2010) . FS 在 比如 当 智 能 体 是 一 个 机 器 人 需 
要 连续 控制 施加 在 关节 上 的 力 的 时 候 变 得 更 加 切实 可 行 ， 这 意味 着 基本 的 动作 技巧 〈 比 如 运动 ) 
需要 在 生成 群体 智能 前 被 学 习 到 。 因 此 ，Arena 在 FS 中 提供 了 了 来 应 对 : 能量 损 耗 、 施 加 较 大 
力 的 惩罚 、 保 持 稳定 速度 的 激励 和 朝向 目标 的 移动 距离 等 。 


3. 竞争 的 BMaRSs (FP) 是 受 文献 (Cai et aL, 2011) 启发 的 方式 ， 定 义 为 









































































































































































































































天 CE = f; : fé FU FB and Vk € K, Vx € X, Vr, € II, Vr: € Hy’, 


ð focx Rf da’ 
0 forex Ryda! o}, (17.3) 


OT. E 
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上 式 直观 上 意味 着 对 于 任何 智能 体 ze *， 采 用 任何 可 能 的 策略 m. € 了 ,， 所 有 智能 体 在 片段 内 
奖励 的 求 和 是 不 变 的 。 如 果 片 段 长 度 为 1， 它 表示 典型 的 多 玩家 零 和 游戏 (Cai et al., 2011). 

关于 FO 中 f 的 有 用 例子 为 (1) 智能 体 需要 为 有 限 的 资源 斗争 ， 而 这 些 资 源 在 片段 结束 后 
通常 会 耗 尽 ， 智 能 体会 为 它 所 得 到 的 资源 受到 奖励 : (2) 斗争 一 直到 结束 生命 ， 奖 励 根据 生命 
结束 的 顺序 来 给 出 (奖励 也 可 以 基于 相反 的 顺序 ， 从 而 离开 游戏 的 一 方 首先 接受 最 高 的 奖励 ， 比 
如 在 一 些 扑克 游戏 中 ， 首 先 打 出 所 有 有 牌 的 一 方 获胜 )。 标 准 形式 CNormal-Form) 游戏 (Myerson, 
2013) 中 的 剪刀 石头 布 (Rock, Paper, and Scissors) 和 (Balduzzi et al., 2019) 中 循环 游戏 (Cyclic 
Game) 都 是 FO 的 特殊 情况 。 

4. 合作 的 BMaRSs (FOL) 是 由 文献 (Cai et al., 2011) 启发 的 方式 ， 定 义 为 












































































































































































































































FOL = f; : f EFM UF and Vk € K, Yx € X,Va' € X \ {x}, Vm, € IL, 


f 
Vra € Hy, ORD 2. (17.4) 
ari 











上 式 直观 上 意味 着 对 任何 一 对 智能 体 (a, n) 都 没有 利益 冲突 CORE /ORL < 0)。 除 此 之 外 ， 由 于 
jg&FNLUTFS， 至 少 有 一 对 智能 体 (x, x) 使 得 ORE /ORL > 0。 该 式 意味 着 这 对 智能 体 有 共同 利 
益 ， 从 而 对 智能 体 x 其 Rf 的 提高 也 会 造成 智能 体 z' 的 RE, 提高 。 最 常见 的 关于 天 cz 中 了 的 例 
子 是 对 于 所 有 xc X 的 fo 都 是 相等 的 ， 比 如 ， 一 个 物体 的 移动 距离 可 以 由 多 个 智能 体 的 共同 努 
力 来 推动 ， 或 者 一 个 群体 的 存活 时 长 (只 要 群体 内 有 一 个 个 体 是 存活 的 ， 群 体 就 是 存活 的 )。 
Jb, Arena 在 FC” 中 提供 了 了 来 应 对 : 队伍 存活 时 间 〈 正 值 或 负 值 ， 因 为 一 些 游戏 需要 队伍 尽 可 
能 久 地 存活 ， 而 其 他 一 些 游戏 需要 队伍 尽 可 能 早 地 消失 ， 比 如 扑克 中 的 纸牌 等 。 
5. 竞争 和 合作 混合 型 的 BMaRSs (FOO) 定义 为 任何 以 上 四 种 之 外 的 情况 。 
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Pa pee P EL (17.5) 

















首先 , 17.3) P a fey Rode! Om, =0 WWE fey ORL /ORÍda! = 0( 证 明 在 这 里 不 提 
供 ， 可 以 参考 原文 )， 这 是 式 (17.3) 的 另 一 种 表示 。 考 虑 式 (07.3) 中 的 FP 和 式 17.5) 中 的 FOL, 
对 FCC 的 一 个 直观 的 解释 是 ， 存在 ORI, JORE < 0 的 情形 ,， 即 智能 体 在 这 时 是 竞争 的 。 但 是 对 整 
本 利益 的 导数 fey ORL /ORÍda! 不 总 是 为 0。 因 此 ， 整 体 利益 可 以 用 具体 的 策略 来 最 大 化 ， 即 
智能 体 在 这 时 是 合作 的 。 

除了 在 每 个 BMaRS 提供 了 几 个 实际 的 f, Arena 也 对 每 个 BMaRS 提供 了 一 个 验证 选项 ， 即 
可 定制 f 并 使 用 这 个 验证 选项 来 确保 编写 的 f 属于 一 个 具体 的 BMaRS。 

上 面 的 内 容 提 供 了 关于 如 何 使 用 不 同类 别 奖励 函数 来 定义 社会 关系 的 理论 。 此 外 ， 奖 励 函 
数 应 当 根 据 上 面 定 义 的 类 别 来 实现 预期 的 群体 中 的 社会 关系 。 实 践 中 ， 奖 励 函 数 有 一 些 具 体形 
式 ， 如 我 们 在 之 前 小 节 中 提 到 的 。Arena 框架 通常 在 GlobalManager 的 Arena Node 中 定义 了 
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17.2 M Arena 开发 游戏 





Collaborative 和 Competitive 的 奖励 函数 ， 而 Isolated 奖励 函数 定义 在 像 BasicAgent 的 智能 体 的 














Arena Node 中 。 















































这 里 是 一 个 便 














于 理解 社会 树 关 系 的 例子 ， 这 个 树 中 每 个 Arena Node 使 用 了 不 同 的 BMaRs， 














如 图 17.181 所 示 。 奖 励 机 制 被 指定 到 各 个 Arena Node 来 定义 它 的 子 节点 的 社会 关系 。 图 17.18(a) 
中 的 图 形 用 户 界面 (Graphical User Interface, GUI) 定义 了 图 17.18(b) 中 的 树 结 构 ， 用 来 表示 
个 有 四 个 智能 体 的 群体 。 这 个 树 结构 可 以 通过 在 图 17.18(a) 的 GUI 中 拖 上 忠 、 复 制 或 删除 来 进行 简 


























单 设置 。 在 这 个 例子 '! 






























































， 每 个 智能 体 有 个 体 层面 的 BMaRS。 智 能 体 是 一 个 机 器 蚂蚁 ， 而 其 个 体 

















级 别 的 BMaRSs 是 .FS ， 有 具体 来 说 ，ant-motion 的 选项 使 得 学 习 朝 向 基本 的 运动 技巧 ， 比 如 向 前 
图 17.18(c) 所 示 。 每 两 个 智能 体 构 成 一 个 队伍 一 个 智能 体 或 队伍 的 集合 )， 而 这 


移 等 进行 ， 如 


两 个 智能 体 有 队伍 层 酝 
图 17.18(d) 所 示 。 因 出 





























[的 BMaRSs。 在 这 个 例子 中 ， 两 个 机 器 蚂蚁 互相 合作 来 推动 盒子 前 进 ， 如 




















上 ， 队 伍 层 面 的 BMaRSs 是 天 C“， 有 具体 来 说 ， 是 推动 盒子 的 距离 。 在 两 个 队 














伍 之 上 ，Arena 有 全 局 的 BMaRSs。 在 这 个 例子 中 ， 两 个 队伍 被 设 定 为 有 一 场 关于 哪个 队伍 先 将 
盒子 推 向 目标 点 的 竞赛 ， 如 图 17.18(e) 所 示 。 因 此 ， 全 局 的 BMaRSs 是 JC, RAR, Xp 
子 推 到 目标 的 先后 次 序 。 应 用 到 每 个 智能 体 的 最 终 奖 励 函 数 是 以 上 三 个 层次 的 BMaRSs 的 加 权 
求 和 。 我 们 也 可 以 想象 如 何 来 定义 一 个 超过 三 个 层次 的 社会 树 ， 其 中 小 的 队伍 组 成 大 的 队伍 ,在 








每 个 节点 定义 的 BMaRSs 给 出 更 加 复杂 和 结构 化 的 社会 关系 。 在 定义 了 社会 树 并 在 每 个 节点 使 
JY BMaRSs 之 后 ， 环 境 便 可 以 使 用 了 。 其 抽象 层 可 以 解决 其 他 问题 ， 比 如 ， 为 窗口 
添加 队伍 颜色 、 展 示 智 能 体 ID 并 生成 一 个 从 上 到 下 的 视野 等 。 
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图 17.18 在 Arena 对 每 个 Arena Node 使 用 不 同 BMaRs 定义 的 社会 树 ( 见 彩 插 ) 


此 外 ， 我 们 可 以 简单 拓展 上 述 框架 到 其 他 常见 社会 关系 ， 如 图 17.19? 所 示 。 


更 多 预制 智能 体 


除了 之 前 的 BasicAgent, Arena 也 有 其 他 更 高 级 的 预 秆 
示 。 其 他 智能 体 的 使 月 
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智能 体 可 以 直接 使 用 ， 如 图 17.20 所 












































明基 本 与 BasicAgent 类 似 ， 通 过 拖 忠 并 将 它 附 于 GlobalManager 之 下 。 唯 








一 的 不 同 在 于 动作 空间 ， 你 需要 改变 相应 的 控制 大 脑 (Brain〉 来 控制 不 同 的 智能 体 。 举 例 来 说 ， 




















1 图 片 来 源 : Song, Yuhang, et al. "Arena: A General Evaluation Platform and Building Toolkit for Multi-Agent Intelligence." 


arXiv preprint arXiv: 1905.08085 (2019). 














2 图 片 来 源 : Song, Yuhang, et al. "Arena: A General Evaluation Platform and Building Toolkit for Multi-Agent Intelligence." 


arXiv preprint arXiv: 1905.08085 (2019). 
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图 17.21 场景 中 的 ArenaCrawlerAgent ( 见 彩 插 ) 





预制 智能 体 中 的 ArenaCrawlerAgent 如 图 17.21 所 示 ， 它 有 连续 的 动作 空间 来 控制 关节 的 动 
作 值 。 为 了 恰当 地 使 用 这 个 智能 体 ， 我 们 需要 改变 ArenaCrawlerAgent 大 脑 为 图 17.22 所 示 的 
ArenaCrawlerPlayerContinuous (PlayerBrain)。 随后 这 个 游戏 可 以 导出 并 用 作 一 般 的 游戏 来 使 用 。 

















17.2.4 导出 二 进 制 游戏 


当 你 在 Unity 中 的 玩家 模式 下 测试 了 游戏 之 后 ， 确 保 游 戏 设置 没有 任何 问题 ， 就 可 以 将 游戏 
导出 为 一 个 独立 的 三 进 制 文件 ， 并 用 它 与 Python 脚本 训练 MARL 算法 。 这 一 小 节 展 示 了 如 何 导 
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。 首 先 ， 我 们 需要 将 大 脑 的 类 型 从 PlayerBrain 改 为 一 个 相应 的 LearningBrain (同样 类 型 )， 
PlayerBrain 被 用 于 通过 用 户 键盘 操作 来 控制 游戏 智能 体 ， 而 LearningBrain 可 以 用 学 习 算 
法 来 直接 控制 。 如 图 17.23 所 示 ， 对 于 这 个 游戏 ， 我 们 改变 GeneralPlayerDiscrete (Player- 
Brain) 为 图 17.24 中 的 GeneralLearnerDiscrete (LearningBrain)。 我 们 也 需要 取消 勾 选 De- 


bugging 来 减少 训练 中 的 输出 信息 。 























图 17.24 更 改 控制 大 脑 类 型 为 LearningBrain 来 导出 训练 游戏 
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。 为 了 导出 游戏 ， 我 们 选择 File->Build Settings， 相 应 得 到 一 个 如 图 17.25 所 示 的 窗口 。 通 过 
这 个 窗口 ， 我 们 可 以 设置 Target Platform 和 Architecture. 

。 我 们 也 需要 单 击 Player Settings 来 检查 其 他 设置 ， 如 图 17.26 所 示 。 一 个 需要 注意 的 点 是 : 
Display Resolution Dialog 需要 设 为 Disabled 来 正常 工作 。 随 后 我 们 回 到 之 前 的 窗口 并 单 击 
Build， 这 样 就 可 以 在 创建 游戏 之 后 得 到 其 二 进 制 文件 。 
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图 17.25 “检查 创建 游戏 的 设置 
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E1726 ”设置 游戏 导出 的 窗口 
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17.3 MARL 训练 











有 了 用 Arena 构建 并 导出 的 独立 (Standalone) 游戏 ， 我 们 可 以 设置 训练 过 程 来 研究 多 智能 
体 强化 学 习 (Multi-Agent Reinforcement Learning, MARL) 中 的 各 种 问题 。 

在 开始 训练 之 前 ， 我 们 需要 先 配 置 系 统 。 由 于 MARL 一 般 需 要 大 量 的 计算 ， 我 们 通常 需要 
一 个 服务 器 来 应 对 训练 过 程 。Arena 环境 的 基本 设置 遵循 17.1 节 中 的 内 容 。 如 果 你 在 服务 器 上 
不 能 正常 使 用 X-Server， 那 么 可 以 遵循 以 下 部 分 内 容 来 设置 虚拟 显示 ， 和 否则 可 以 直接 跳 过 该 部 分 
到 训练 小 节 。 
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17.3.1 设置 X-Server 
使 用 虚拟 显示 的 基本 设置 如 下 : 


























# 安装 Xorg 
sudo apt-get update 
sudo apt-get install -y xserver-xorg mesa-utils 


sudo nvidia-xconfig -a --use-display-device=None --virtual=1280x1024 


# 获得 BusID 信息 





nvidia-xconfig --query-gpu-info 

# 添加 BusID 信息 到 你 的 /etc/X11/xorg.conf 文件 

sudo sed -i ’s/ BoardName "GeForce GTX TITAN X"/ BoardName "GeForce GTX TITAN X"\n 
BusID "9:30:0"/g' /etc/X11/xorg.conf 





# 从 /etc/X11/xorg.conf 文件 中 移 除 小 节 "Files" 


1 含 小 节 "Files” 和 EndSection 的 两 行 





sudo vim /etc/X11/xorg.conf 





http: //download.nvidia.com/XFree86/Linux-x86_64/390.87/NVIDIA-Linux-x86_64-390.87.run 
sudo /bin/bash ./NVIDIA-Linux-x86_64-390.87.run --accept-license --no-questions 

--ui-none 
Isi 


# 禁用 Nouveau， 因 为 它 会 使 Nvidia Jk 





sudo echo ’blacklist nouveau’ | sudo tee -a /etc/modprobe.d/blacklist.conf 


sudo echo ’options nouveau modeset=0’ | sudo tee -a /etc/modprobe.d/blacklist.conf 
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sudo echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms. conf 


sudo update-initramfs -u 


sudo reboot now 








用 以 下 三 种 方式 不同 的 方式 可 能 在 不 同 的 Linux 版 本 上 运行 ) 之 一 关闭 Xorg: 











# 方式 1: 运行 以 下 命 行 这 y 出 

ps aux | grep -ie Xorg | awk ’{print "sudo kill -9 " $2}’ 
# 方式 2: 运行 以 下 命令 

sudo killall Xorg 

# 方式 3: 运行 以 下 命令 


sudo init 3 











用 该 命令 开启 虚拟 显示 : 








sudo ls 
sudo /usr/bin/X :0 & 








你 应 当 可 以 看 到 虚拟 显示 正常 启动 ， 并 输出 以 下 内 容 : 








X.Org X Server 1.19.5 

Release Date: 2017-10-12 

X Protocol Version 11, Revision 0 

Build Operating System: Linux 4.4.0-97-generic x86_64 Ubuntu 

Current Operating System: Linux W5 4.13.0-46-generic 51-Ubuntu SMP Tue Jun 12 12:36:29 
UTC 2018 x86_64 

Kernel command line: BOOT_IMAGE=/boot/vmlinuz-4.13.0-46-generic.efi.signed 
root-UUID-5fdb5e18-f8ee-4762-a53b-e58d2b663df1l ro quiet splash nomodeset acpi-noirq 
thermal.off-1 vt.handoff-7 

Build Date: 15 October 2017 05:51:19PM 

xorg-server 2:1.19.5-Qubuntu2 (For technical support please see 
http://www .ubuntu.com/support) 

Current version of pixman: 0.34.0 
Before reporting problems, check http://wiki.x.org 
to make sure that you have the latest version. 

Markers: (--) probed, (**) from config file, (==) default setting, 
(++) from command line, (!!) notice, (II) informational, 


(WW) warning, (EE) error, (NI) not implemented, (??) unknown. 
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(==) Log file: "/var/log/Xorg.80.1og", Time: Fri Jun 14 01:18:40 2019 
(==) Using config file: "/etc/X11/xorg.conf" 
(==) Using system config directory "/usr/share/X11/xorg.conf.d" 









































如 果 你 看 到 报错 ， 回 到 “用 以 下 三 种 方式 之 一 关闭 Xorg” 并 尝试 用 另 一 种 方法 。 
在 新 窗口 中 运行 “Arena-Baselines” 之 前 ， 运 行 以 下 命令 来 将 一 个 虚拟 显示 端口 附 于 窗口 : 


H 















































export DISPLAY-:68 





17.3.2 ”进行 训练 
创建 TMUX 会 话 (如果 你 用 的 机 器 是 一 个 可 以 用 SSH 连接 的 服务 器 〉 并 进入 虚拟 环境 : 





















































tmux new-session -s Arena 


source activate Arena 





连续 动作 空间 
Arena 中 连续 动作 空间 的 游戏 列表 : 


* ArenaCrawler-Example-v2-Continuous 





* ArenaCrawlerMove-2T1P-v1-Continuous 

* ArenaCrawlerRush-2T1P-v1-Continuous 

* ArenaCrawlerPush-2T | P-v1-Continuous 

* ArenaWalkerMove-2T 1 P-v1-Continuous 

* Crossroads-2T 1 P-v1-Continuous 

* Crossroads-2T2P-v1-Continuous 

* ArenaCrawlerPush-2T2P-v1-Continuous 

* RunToGoal-2T1P-v1-Continuous 

* Sumo-2TIP-v1-Continuous 

* YouShallNotPass-Dense-2T1P-v1-Continuous 
运行 训练 命令 ， 将 GAME NAME 用 上 面 的 游戏 名 蔡 换 并 根据 你 所 用 计算 机 选择 合适 的 


num-processes (num-mini-batch 需 等 于 num-processes ): 







































































tmux new-session -s Arena 
CUDA_VISIBLE_DEVICES=0 python main.py --mode train --env-name GAME_NAME --obs-type 
visual --num-frame-stack 4 --recurrent-brain --normalize-obs --trainer ppo 


--use-gae --lr 3e-4 --value-loss-coef 9.5 --ppo-epoch 10 --num-processes 16 
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--num-steps 2048 --num-mini-batch 16 --use-linear-lr-decay --entropy-coef 8 --gamma 


0.995 --tau 0.95 --num-env-steps 100000000 --reload-playing-agents-principle 


OpenAIFive --vis --vis-interval 1 --log-interval 1 --num-eval-episodes 10 


--arena-start-index 31969 --aux 0 





离散 动作 空间 


Arena 中 离散 动作 空间 游戏 列表 : 
Crossroads-2T 1 P-v1-Discrete 
FighterNoTurn-2T1P-v1-Discrete 
FighterFull-2T1P-v1-Discrete 
Soccer-2T1P-v1-Discrete 
BlowBlow-2T1P-v1-Discrete 
Boomer-2T 1 P-v1-Discrete 
Gunner-2T1P-v1-Discrete 
Maze2x2Gunner-2T 1 P-v1-Discrete 
Maze3x3Gunner-2T 1 P-v1-Discrete 


Barrier4x4Gunner-2T | P-v1-Discrete 
Soccer-2T2P-v 1-Discrete 
BlowBlow-2T2P-v1-Discrete 
BlowBlow-Dense-2T2P-v1 Discrete 
Tennis-2T1P-v1-Discrete 
Tank-FP-2TI1P-v1-Discrete 
BlowBlow-Dense-2T1P-v1-Discrete 
运行 训练 命令 ,将 GAME NAME HH | 











Maze3x3Gunner-PenalizeTie-2T 1 P-v1-Discrete 








上 面 的 游戏 名 蔡 换 刘 





num-processes (num-mini-batch 需 等 于 num-processes ): 


根 





E St Ah SEL 


ci 


择 合适 的 





CUDA_VISIBLE_DEVICES=0 python main.py --mode train --env-name GAME NAME --obs-type 


visual --num-frame-stack 4 --recurrent-brain --normalize-obs --trainer ppo 


--use-gae --lr 2.5e-4 --value-loss-coef 0.5 --ppo-epoch 4 --num-processes 16 


--num-steps 1024 --num-mini-batch 16 --use-linear-lr-decay --entropy-coef 9.01 


--clip-param 0.1 --num-env-steps 100000008 --reload-playing-agents-principle 


OpenAIFive --vis --vis-interval 1 --log-interval 1 --num-eval-episodes 10 


--arena-start-index 31569 --aux 0 
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你 也 可 以 改 用 其 他 MARL 算法 来 蔡 代 上 面 的 PPO 去 测试 你 所 创建 的 游戏 。 




















17.3.3 可视化 
为 了 用 Tensorboard 可 视 化 分 析 训 练 过 程 的 学 习 曲 线 ， 运 行 : 





























source activate Arena && tensorboard --logdir ../results/ --port 8888 











并 访问 相应 端口 打开 Tensorboard 可 视 化 。 
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之 前 的 章节 向 读者 展现 了 深度 强化 学 习 的 主要 知识 点 、 强 化 学 习 算法 的 主要 类 别 和 算法 实 
现 ， 以 及 为 了 便于 理解 深度 强化 学 习 应 用 而 讲解 的 儿 个 实践 项 目 。 然而， 由 于 如 之 前 强化 学 习 的 
挑战 一 章 中 提 到 的 低 样 本 效率 、 不 稳定 性 等 问题 ， 初 学 者 想 要 较 好 地 部 署 这 些 算法 到 自己 的 应 用 
中 还 是 有 一 定 困难 的 。 因 此 ， 在 这 一 章 ， 从 数学 分 析 和 实践 经 验 的 角度 ， 我 们 细致 地 总 结 了 一 些 
在 深度 强化 学 习 应 用 实践 中 常用 的 技巧 和 方法 。 这些 方法 或 小 窍门 涉及 了 算法 实现 阶段 和 训练 调 
试 阶段 ， 用 来 帮助 读者 避免 陷入 一 些 实践 上 的 困境 。 这 些 经 验 上 的 技巧 有 时 可 以 产生 显著 效果 ， 
但 不 总 是 这 样 。 这 是 由 于 深度 强化 学 习 模 型 的 复杂 性 和 敏感 性 造成 的 ， 而 有 时 需要 同时 使 用 多 个 
技巧 。 如 果 在 某 一 个 项 目 上 卡 住 时 ， 大 家 也 可 以 从 这 一 章 中 得 到 一 些 解决 方案 上 的 启发 。 



















































































































































































































































































18.1. Hite: 如 何 应 用 深度 强化 学 习 


深度 学 习 通 常 被 认为 是 “ 黑 盒 ” 方 法 。 尽 管 它 实 际 上 并 不 是 “ 黑 盒 ”， 但 是 它 有 时 会 表现 得 
不 稳定 且 会 产生 不 可 预测 的 结果 。 在 深度 强化 学 习 中 ， 由 于 强化 学 习 的 基本 过 程 需要 智能 体 从 与 
环境 交互 的 动态 过 程 中 的 奖励 信号 而 不 是 标签 中 学 习 ， 这 个 问题 变 得 更 加 严重 。 这 是 与 有 监督 学 
习 的 情况 不 同 的 。 强 化 学 习 中 的 奖励 函数 可 能 只 包含 不 完整 或 者 局 部 的 信息 ， 而 智能 体 使 用 自 举 
(Bootstrapping) 学习 方法 时 往往 在 追逐 一 个 变化 的 目标 。 此 外 ,深度 强化 学 习 中 经 常用 到 不 止 一 
个 深度 神经 网 络 ， 尤 其 是 在 那些 较为 高 等 或 者 最 近 提 出 的 方法 中 。 这 都 使 得 深度 强化 学 习 算 法 可 
能 表现 得 不 稳定 且 对 超 参数 敏感 。 以 上 问题 使 得 深度 强化 学 习 的 研究 和 应 用 困难 重重 。 由 于 这 个 
原因 ， 我 们 在 这 里 介绍 一 些 实现 深度 强化 学 习 中 常用 的 技巧 和 建议 。 
首先 ， 你 需要 知道 一 个 强化 学 习 算 法 是 否 可 以 用 于 解决 某 一 个 特定 的 问题 ， 而 且 显然 不 是 每 
个 算法 都 对 所 有 任务 适用 。 我 们 经 常 需要 仔细 考虑 强化 学 习 本 身 是 否 可 以 用 于 解决 某 个 任务 。 总 
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体 来 说 ， 强 化 学 习 可 以 用 于 连续 决策 和 


个 


来 描述 或 近似 。 





























接 和 有 效 。 






























































DIKE, A 








了 标签 数据 的 预测 任务 通 
强化 学 习 任务 通常 包括 至 少 两 个 关键 要 素 : 


| 定 问题 ， 而 这 类 问题 通常 可 以 ) 























马尔 





可 夫 (Markov) 过 程 








n 





























m 





不 需要 强化 学 习 算 法 ， 而 监督 学 习 方 法 可 能 更 直 

















(1) Shi, HREH 








| 一 个 策略 控制 ， 而 这 个 策略 是 通过 强化 学 习 训 练 得 到 的 。 








动态 过 程 和 奖励 信 
在 之 前 的 几 个 章节 












































强化 学 习 算法 被 用 来 解决 像 OpenAI Gym 这 类 环境 ! 
为 它们 已 经 被 设计 好 且 经 过 标 ; 

















需要 人 为 定义 环境 ， 并 运 | 

















] 强 化 学 习 算 法 去 使 


























的 任务 。 在 这 些 实验 中 ， 你 不 需要 过 多 关 
E 化 和 正则 化 。 然 而 ， 在 应 用 章节 中 介绍 的 儿 个 项 目 则 
智能 体 正常 工作 。 














总 的 来 说 ， 应 用 深度 强化 学 习 算 法 有 以 下 几 个 阶段 。 


1. 简单 测试 阶段 : 你 需要 使 
个 新 的 任 





如 果 是 











务 ， 用 它 来 探索 环境 C 


























Ju EGER T] 





E 和 准确 























性 有 高 置信 和 度 的 模型 ， 

















包括 强化 学 习 算 法 ， 











[至 使 用 














企 




















上 
中 可 能 的 问题 ， 























改 的 延伸 ， 而 不 是 直接 使 




















或 者 至 少 让 






































尔 自己 熟悉 这 个 要 解 六 





























的 任务 ， 这 会 


随机 策略 ) 或 者 逐步 验证 你 将 在 最 终 模型 
一 个 复杂 的 模型 。 你 需要 快速 进行 实验 来 检测 环境 和 模型 基本 设置 

















给 你 在 之 后 的 过 程 ! 














提供 一 些 启 







































































































































































































































































发 ， 有 时 也 会 暴露 出 一 些 需要 考虑 的 极端 情况 。 

2. 快速 配置 阶段 : 你 应 该 对 模型 设置 做 快速 测试 ， 来 评估 其 成 功 的 可 能 性 。 如 果 有 错误 ， 尽 
可 能 多 地 可 视 化 学 习 过 程 ， 并 在 你 无 法 直接 从 数字 上 得 到 潜在 关系 的 时 候 使 用 一 些 统计 变量 ( 方 
差 、 均 值 、 平 均 差 值 、 极 大 极 小 值 等 )。 这 一 步 应 当 在 简单 测试 阶段 后 开始 ， 然 后 逐步 增加 新 模 
型 的 复杂 度 。 如 果 你 无 法 百分之百 确定 更 改 的 有 效 性 ， 你 应 当 每 一 次 都 进行 测试 。 

3. 部 署 训练 阶段 : 在 你 仔细 确认 过 模型 的 正确 性 后 ， 你 可 以 开始 大 规模 部 署 训练 了 。 由 于 深 
度 强化 学 习 往往 需要 较 大 量 的 样本 去 训练 较 长 时 间 ， 我 们 鼓励 你 使 用 并 行 训练 方式 、 使 用 云 服务 
器 《如果 你 自己 没有 服务 器 的 话 ) 等 ， 来 加 速 对 最 终 模型 的 大 规模 训练 。 有 时 这 一 阶段 是 和 第 二 
阶段 交 蔡 进行 的 ， 因 而 这 一 步 在 实践 中 可 能 会 花费 较 长 时 间 。 

在 下 面 几 个 小 节 中 ， 我 们 将 分 几 部 分 介绍 应 用 深度 强化 学 习 的 技巧 。 
18.2 ”实现 阶段 

。 从头 实 现 一 些 基本 的 强化 学 习 算 法 。 对 于 深度 强化 学 习 领 域 的 初学 者 而 言 , 从 头 实现 一 些 基 












































本 的 强化 学 习 算 法 并 调试 这 些 算法 直到 它们 最 终 正 确 运行 ,是 很 好 上 





























Critic $232: 2 MIA 











习 算 法 实现 ! 





复杂 的 大 规模 任务 ， 而 是 一 个 相对 简 























境 。 在 实现 这 些 基本 算法 的 时 候 ， 你 应 当 基 于 一 种 公 




















作为 一 种 基于 价值 函数 的 算法 ， 是 值得 去 自己 实现 的 。 连 续 动作 空间 、 
F 始 学 习 强 化 学 习 算 法 实现 时 很 好 的 选择 。 这 个 过 程 会 需要 你 理解 强化 学 
的 每 一 行 代码 ， 给 你 一 个 强化 学 习 过 程 的 整体 感觉 。 














的 练习 。Deep Q-Networks 


策略 梯度 和 Actor- 


刚 开 始 ， 你 不 需要 一 个 


单 的 可 以 快速 验证 的 任务 ， 比 如 那些 OpenAI Gym 环 





























的 结构 并 且 使 / 

















j 一 种 深度 学 习 框 架 





(比如 TensorFlow、PyTorch 等 )， 并 逐步 扩展 到 更 加 复杂 的 任务 上 ， 同 时 使 用 更 加 高 级 的 技 


术 《〈 比 如 优先 经 验 巨 















































项 目的 进程 。 
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放 等 )。 这 会 显著 地 加 速 你 随后 将 不 同 的 深度 强化 学 习 算 法 应 用 
到 一 些 问题 ， 你 可 以 参考 其 他 人 的 实现 方法 《〈 比 如 本 

















于 其 他 











18.2 ”实现 阶段 








书 提 供 的 强化 学 习 算 法 实现 指南 ) 或 者 通过 网 络 查找 你 遇 到 的 问题 。 绝 大 多 数 问题 都 已 经 
被 他 人 所 解决 。 
。 适 当地 实现 论文 细节 。 在 你 熟悉 了 这 些 基本 的 强化 学 习 算法 后 ， 就 可 以 开始 实现 和 测试 一 
些 在 文献 中 的 方法 。 通 常 强化 学 习 算法 的 研究 论文 中 包含 很 多 实现 细节 ， 而 有 时 这 些 细节 
在 不 同 论文 中 不 是 一 致 的 。 所以， 当 你 实现 这 些 方法 的 时 候 , 不 要 过 拟 合 到 论文 细节 上 , 而 
是 去 理解 论文 作者 为 何在 这 些 特定 情形 下 选择 使 用 这 些 技巧 。 举 一 个 典型 的 例子 ， 在 多 数 
文章 中 ， 实 验 部 分 中 神经 网 络 的 结构 细节 包括 隐藏 层 的 维 数 和 层 数 、 各 个 超 参 数 的 数值 等 。 
这 些 都 或 在 论文 主体 、 或 在 补充 材料 中 提 到 。 你 不 需要 在 自己 的 实现 版 本 中 严格 遵循 这 些 
实现 细节 ， 而 且 你 很 可 能 甚至 跟 原文 用 不 一 样 的 环境 来 对 方法 进行 测试 。 比 如 ， 在 深度 决 
定性 策略 梯度 (Deep Deterministic Policy Gradient) 算法 的 论文 中 ， 作 者 建议 使 用 Ornstein- 
Uhlenbeck (OU) 噪声 来 进行 探索 。 人 然而， 实践 中 ， 有 时 很 难说 OU 噪声 是 否 比 高 斯 噪声 更 
好 ， 而 这 往往 在 很 大 程度 上 依赖 于 具体 任务 。 男 一 个 例子 是 ， 在 Vinyals et al. (2019) 关于 
AlphaStar 的 工作 中 ，Vanilla TD(A) 方法 被 证 实 比 其 他 更 高 级 的 离线 策略 (Off-Policy) 修正 
方法 V-Trace (Espeholt et al., 2018) 更 有 效 。 因 此 ， 如 果 这 些 技巧 不 足够 通用 ， 那 么 它们 可 
能 不 值得 你 花 精 力 去 实现 。 相 比 而 言 ， 一 些微 调 方法 可 能 对 具体 任务 有 更 好 的 效果 。 然 而 ， 
如 上 所 述 ， 理 解 作 者 在 这 些 情 况 下 为 何 使 用 这 些 技巧 则 是 更 关键 和 有 意义 的 。 当 你 采取 论 
文中 的 某 些 想法 并 将 其 应 用 到 你 自己 的 方法 中 时 ， 这 些 建 议 可 能 更 有 意义 ， 因 为 有 时 对 于 
你 自己 的 具体 情况 ， 可 能 不 是 论文 中 的 主要 想法 ， 而 是 某 些 具体 技巧 或 操作 对 你 帮助 最 大 。 
。 如 果 你 在 解决 一 个 具体 任务 ， 先 探索 一 下 环境 。 你 应 当 检 查 一 下 环境 的 细节 ， 包 括 观察 量 
和 动作 的 性 质 ， 如 维度 、 值 域 、 连 续 或 离散 值 类 型 等 。 如 果 环 境 观 察 量 的 值 在 一 个 很 大 的 
9 效 范 围 内 或 者 是 未 知 范围 的 ， 你 就 应 该 把 它 的 值 归 一 化 。 比 如 ， 如 果 你 使 用 Tanh 或 者 
Sigmoid 作为 激活 函数 ， 较 大 的 输入 值 将 可 能 使 第 一 个 隐藏 层 的 节点 饱和 ， 而 这 训练 开始 时 
将 导致 较 小 的 梯度 值 和 较 慢 的 学 习 速 度 。 此 外 ， 你 应 当 为 强化 学 习 选 择 好 的 输入 特征 ， 这 
些 特征 应 当 包 含 环境 的 有 用 信息 。 你 也 可 以 用 能 进行 随机 动作 选取 的 智能 体 来 探索 环境 并 
可 视 化 这 个 过 程 ， 以 找到 一 些 极端 情况 。 如 果 环 境 是 你 自己 搭建 的 ， 这 一 步 可 能 很 重要 。 

。 给 每 一 个 网 络 选取 一 个 合适 的 输出 激活 函数 。 你 应 当 根 据 环境 来 对 动作 网 络 选择 一 个 合适 
的 输出 激活 函数 。 比 如 , 常用 的 像 ReLU 可 能 从 计算 时 间 和 收敛 表现 上 都 对 隐藏 层 来 说 可 以 
很 好 地 工作 ， 但 是 它 对 有 负 值 的 动作 输出 范围 来 说 可 能 是 不 合适 的 。 最 好 将 策略 输出 值 的 
范围 跟 环 境 的 动作 值 域 匹配 起 来 ， 比 如 对 于 动作 值 域 (-1,1) 在 输出 层 使 用 Tanh 激活 函数 。 
从 简单 例子 开始 逐渐 增加 复杂 度 。 你 应 当 从 比较 清晰 的 模型 或 环境 开始 测试 ， 然 后 逐步 增 
加 新 的 部 分 ， 而 不 是 一 次 将 所 有 的 模块 组 合 起 来 测试 和 调试 。 在 实现 过 程 中 不 断 进 行 测试 ， 
除非 你 是 这 个 领域 的 专家 并 且 很 幸运 ， 否 则 你 不 应 当期 望 一 个 复杂 的 模型 可 以 一 次 实现 成 
功 并 得 到 很 好 的 结果 。 
。 从 密集 奖励 函数 开始 。 奖 励 函 数 的 设计 可 以 影响 学 习 过 程 中 优化 问题 的 凸 性 ， 因 此 你 应 当 
从 一 个 平滑 的 密集 奖励 函数 开始 尝试 。 比 如 ， 在 第 16 章 中 定义 的 机 器 人 抓 取 任务 中 ， 我 们 
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第 18 章 


深度 强化 学 习 应 用 实践 技巧 
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抓 取 了 目标 物体 ， 而 在 没 
选择 合适 的 网 络 结构 。 尽 管 在 深度 学 习 
尤其 在 像 计算 机 视觉 (He et al., 2016) 和 自然 语言 处 理 (Jaderberg et al., 2015) 领域 。 对 





用 一 个 密集 奖励 函数 来 天 











F 始 机 器 人 学 习 ， 这 个 函数 是 从 机 器 人 夹 
负数 。 这 可 以 保证 值 函数 网 络 和 策略 网 络 能 够 在 一 个 较为 光滑 的 超 3 


























到 目标 物体 























地 加 速 学 习 过 程 。 一 个 稀疏 奖励 可 以 被 定义 为 一 个 简单 的 二 值 变 
额外 信息 的 情况 下 这 对 机 器 人 来 说 可 能 很 难 进 行 探索 和 学 习 。 















































经 常见 到 























强化 学 习 而 
特别 常见 。 
Tfi AeA JL- 
个 10 层 及 以 上 
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深度 强化 学 习 由 了 








这 是 
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经 网 络 深度 通常 不 会 太 深 ， 超 过 5 层 的 神经 
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于 强化 学 习 算法 本 身 的 计算 复杂 度 造成 的 。 
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个 有 几 十 层 网 络 和 
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里 ， 

















数 十 亿 参 数 的 


之 间距 离 的 





F 面 上 优化 ， 从 而 显著 
] 来 表示 机 器 人 是 否 
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络 ， 


于 深度 














络 在 强化 学 习 
此 ， 除 非 环 境 














应 用 中 




















不 是 


有 很 大 的 规 











FEE GPU 或 者 TPU 可 以 使 用 ， 否 则 你 一 般 不 会 在 深度 强化 学 习 中 用 一 
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如 果 网 络 相 比 于 数据 而 言 足 够 大 ， 它 可 
能 只 是 缓慢 地 收敛 甚至 是 发 散 ， 这 是 
经 常 是 依据 环境 状态 空间 和 动作 空间 而 定 的 。 
以 用 一 个 表格 方法 ， 或 者 一 个 单 层 或 两 层 的 神经 网 络 解决 。 更 复杂 的 例子 如 第 13 章 和 第 
章 中 介绍 的 应 





可 
16 
































网 络 ， 它 的 训练 将 会 





E 常 困难 


























E。 这 不 仅 是 计算 资源 上 的 限于 











l, 























缺失 监督 信号 而 导致 的 不 稳定 性 和 非 单 调 表现 增长 有 关 。 在 














， 通 常 有 几 十 维 的 连续 状态 和 动作 空间 ， 这 就 需要 可 能 大 于 








但 是 相 比 了 
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其 他 深度 学 习 领 域 中 的 
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这 也 与 














KAR 2 
监督 学 习 中 ， 

















[以 过 拟 合 到 数据 集 上 ， 而 在 深度 强化 学 习 
为 探索 和 利用 之 间 的 强 关 联 作用 。 网 络 大 小 的 选择 
个 有 几 十 个 状态 动作 组 合 的 离散 环境 可 能 




















， 它 可 






































巨型 





于 网 络 的 结构 而 言 ， 文 献 中 很 常见 的 有 多 层 感 为 
经 网 络 (CNNs) 和 循环 神经 网 络 (RNNs)。 更 为 高 级 和 复杂 























对 模型 微调 方面 有 具体 要 求 或 者 一 些 其 他 特殊 情况 。 z 
咯 经 常 需要 一 个 卷 积 神经 网 络 主干 来 提前 提取 信息 ， 要 么 与 














感知 机 处 到 








E， 而 基于 视觉 的 和 集 








强化 学 习 算 法 一 起 让 
的 矢量 输入 和 高 给 





低 维 






































网 络 而 言 ， 这 仍旧 是 很 小 的 规模 。 
MAL (Multi-Layer Perceptrons, MLPs). 4$ 























个 低 维 的 

















的 网 络 结构 很 少 月 





3 层 的 网 络 ， 








矢量 输入 可 以 
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的 图 像 输入 一 起 使 ) 


























j 其 他 计算 机 视觉 的 方法 进行 预 训练 。 





出 有 其 他 | 




















j， 实 践 中 通常 先 采 用 























马尔 可 夫 过 程 ， 























结构 ， 

















各 和 价值 网 络 都 
羽 而 它们 的 
而 在 动作 预测 时 不 有 


能 需要 较 大 的 批 
现 稳定 的 进步 ， 而 非 在 学 习 上 









































主干 再 与 其 余 低 维 输入 并 联 的 方法 。 循 环 
最 优 的 动作 选择 不 仅 依赖 当前 状态 ， 而 且 
了 效 的 经 验 指导 。 有 时 策略 和 价值 网 络 可 能 构成 
状态 输入 是 不 同 的 ， 这 可 以 用 于 价值 
可 以 使 用 价值 网 络 的 情况 。 

熟悉 你 所 用 的 强化 学 习 算 法 的 性 质 。 举 例 来 说 ， 像 PPO 或 TRPO 类 的 基 了 
民 二 来 保证 安全 的 策略 进步 。 对 了 




















从 高 维 输入 i 





























经 网 络 可 以 用 于 不 是 
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一 个 较 大 批 


尺寸 的 原 
到 的 批量 样本 计算 的 。 如 果 批 
导致 对 Fisher 17 BA 
中 ， 算 法 TRPO 和 PPO : 
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JAER RE KU. Fisher 信息 











尺寸 太 小 或 者 是 有 偏差 的 ， 可 能 对 














R Ri EVI 

















青 况 ， 比 如 将 
提取 特征 
完全 可 观测 的 环境 或 者 非 
依赖 之 前 状态 。 以 上 是 实践 中 对 策 


二 个 多 


日 到 ,除非 





的 














一 种 非 对 称 的 Actor-Critic 
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策略 网 络 的 指导 ， 


信赖 域 的 方法 可 























这 个 近似 造成 





FF 这些 信赖 域 方法 ， 我 们 通常 期 待 策 


名表 











线 上 某 些 位 置 突 然 有 较 大 下 降 。TRPO 等 信赖 域 方法 需要 用 
矩阵 ， 这 是 基于 当前 采样 
并 且 


问题 ， 

































































E 阵 (或 逆 Hessian 乘积 ) 的 近似 不 准确 而 使 学 习 表 现下 降 。 因 此 ， 实 上 践 


的 批 尺 寸 需要 被 增 大 ， 直 到 智能 体 有 稳定 进步 的 学 习 表现 为 止 。 


18.2 ”实现 阶段 





所 以 ，TRPO 有 了 时 也 无 法 较 好 地 扩展 到 大 规模 的 网 络 或 较 深 的 卷 积 4 
络 上 。DDPG 算法 则 通常 被 认为 对 超 参数 敏感 ， 尽 管 它 被 证 











很 有 效 。 当 把 


NÉ. 















































明 对 许多 











它 应 用 到 大 规模 或 现实 任务 (Mahmood et al., 2018) 上 时 














Me 











比如 ， 尽 管 在 
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个 简 


单 的 模拟 测试 环境 中 通 


























最 优 的 表现 效果 ， 但 是 在 现实 世界 : 














超 参数 搜索 ， 
IH] » 
散 值 动 
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此 DDPG 相 
SE DDPG 算法 起 初 是 设计 / 
况 下 工作 。 如 
些 额 外 的 技巧 ， 比 如 用 

















的 学 习 过 程 由 
其 他 
] 来 解决 有 连续 什 动 作 


于 时 





比 与 




























































































A 











间 和 资源 上 的 PB 
TRPO 或 SAC 算法 可 
HEZ, XH 
果 你 尝试 将 它 应 用 到 有 离散 值 动 
TREK t (HY Sigmoid(ta) 输出 激活 








经 网 络 和 循环 神经 网 
连续 动作 空间 的 任务 
， 这 个 敏感 性 
过 彻底 的 超 参数 搜索 可 以 最 终 找到 一 个 
民 制 可 能 不 允许 这 种 
能 不 会 有 很 好 的 效果 。 另 一 方 








会 更 加 






































ERNES 
函数 并 














F 不 意味 着 它 不 能 在 离 
上 ， 那 么 需要 使 用 
且 将 其 修剪 成 二 值 化 





























的 输出 ， 还 得 保证 这 个 截断 误差 比较 
一 个 类 别 的 输出 分 布 。 
过 缩放 而 不 是 改变 均值 


re 


KE 





确定 性 输出 为 





归 一 化 值 处 理 。 总 体 来 说 ， 你 需要 通 i 





























他 算法 也 可 以 有 相似 




















\， 或 者 你 可 以 直接 使 用 























处 理 o 














来 归 

















同样 的 方式 标 
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能 会 


值 平 移 可 


个 结论 只 


止 片段 ， 

















“Done=True” 信 号 在 最 大 片段 长 度 以 














准 化 值 函数 的 预测 目 











Ee 奖 


励 函 数 的 缩放 基于 
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标 





影响 到 


那么 ,你 可 以 使 | 


值 缩 放 《〈 即 除 以 标准 差 ) 而 不 做 均值 平移 〈 为 得 到 零 均值 而 减 去 统 i 
这 实际 上 与 整个 奖 
适用 于 你 使 用 “Done” 信 号 的 情况 。 其 实 ， 如 果 你 事先 没有 用 
考虑 以 下 一 种 情况 ， 如 





























智能 体 的 存活 意 
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均值 平移 。 
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化 奖励 E 数值 , # H. 





Gumbel-Softmax 技巧 来 更 改 






































| 练 中 采样 的 批 样本 。 
十 均值 ) 的 原因 是 ， 均 
励 函 数 的 正 负 号 有 关 ， 而 且 这 
“Done” 信 号 来 终 
能 体 经 历 了 一 个 片段 , 而 
内 发 生 ， 那 么 假如 我 们 认为 智能 体 仍 旧 存 活 ， 则 这 个 








只 做 




















“Done” 信 号 之 后 的 奖励 值 实际 为 0。 如 果 这 些 为 0 的 奖励 值 总 体 上 比 之 前 的 奖励 值 高 〈 即 


之 前 的 奖励 值 基本 是 负数 )， 那 么 智能 体会 倾向 于 尽 可 能 早 















































内 的 奖励 。 相 
我 们 对 奖励 值 








反 ， 如 果 之 前 的 奖励 函数 基本 是 正 值 ， 
采取 均值 平移 方式 ， 它 会 打破 以 上 情形 
体 即使 在 奖励 值 基本 为 正 时 不 会 选择 存活 得 更 久 ， 而 这 会 











知 能 




















He 
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数 的 目标 也 是 相似 的 情况 。 举 例 来 说 ， 一 些 基于 DQN 
意外 地 不 断 增 大 ， 而 这 是 
以 缓解 这 个 问题 ， 或 者 使 用 3 
一 个 关于 折扣 因子 的 小 提示 。 你 可 以 根据 折 # 





个 大 致 感觉 : 


100 个 时 间 步 后 的 奖励 。]} 
Done 信号 只 在 终止 状态 时 为 真 。 对 于 初学 者 来 说 ， 深 度 强化 学 习 ! 
微 差别 ， 而 片段 式 强化 学 习 中 的 “Done” 信 号 就 是 其 中 一 个 。 
即使 是 相同 算法 的 不 同 实 现 也 会 有 截然 不 同 的 表现 。 在 片段 式 强化 学 习 
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影 
的 算法 的 
对 Q 值 的 过 估计 造成 的 。 归 
其 他 的 技巧 如 Double Q-Learning。 


T q 对 单 步 动作 选择 的 有 效 时 间 范 


























地 结束 片段 ， 以 最 大 化 整个 片段 
会 选择 “ 活 ”得 更 久 一 些 。 
能 体 的 存活 意愿 ， 从 而 使 得 知 
响 训 练 中 的 表现 。 归 一 化 值 函 
35) Q HAE 
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Q 值 可 


围 有 一 








y+ ves =1/(1—7). RHA, 对 于 7y = 0.99， 我 们 经 常 可 以 忽略 























j 这 个 小 技巧 可 以 加 速 你 设置 参数 时 的 过 程 。 
有 一 些 很 容易 忽略 的 细 
微 的 差异 可 能 使 得 实 
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号 被 广泛 用 于 结束 一 个 片段 ， 而 它 是 环境 状态 的 一 个 函数 ， 
就 被 设置 为 真 。 
要 么 失败 ， 而 不 是 任意 一 个 到 达 时 间 限 度 或 最 大 片段 长 度 的 状态 。 将 “Done” 信 号 的 值 








MY 
1H 











只 要 智能 体 到 达 终 止 状态 ， 


























FE 意 ， 这 里 终止 状态 被 定义 为 指示 智能 体 已 








,经 完成 片段 








，“Done” 信 
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在 状态 为 终止 状态 时 设 为 真 不 是 一 个 平 良 的 问题 。 举 例 来 说 ， 如 果 一 个 任务 是 操控 机 械 臂 
到 达 空 间 中 某 个 具体 的 位 置 ， 这 个 “Done” 信 号 只 应 当 在 机 械 辟 确实 到 达 这 个 位 置 时 为 真 ， 
而 不 是 到 达 默 认 片 段 最 大 长 度 等 情况 下 。 为 了 理解 这 个 差异 ， 我 们 需要 知道 在 强化 学 习 中 
有 些 环境 ， 时 间 长 度 是 无 穷 的 ， 有 些 是 有 限 的 ， 而 在 采样 过 程 中 ， 算 法 经 常 是 对 有 限 长 度 
的 轨迹 做 处 理 的 。 有 两 种 常用 的 实现 方式 ， 一 是 设置 最 大 片段 长 度 ， 二 是 使 用 “Done” 信 
号 作为 环境 的 反馈 来 通过 跳 开 循环 以 终止 片段 。 当 使 用 “Done” 信 号 作为 采样 过 程 中 的 中 
断 点 时 ， 它 不 应 当 在 片段 由 于 到 达 最 大 长 度 的 时 候 设 为 真 ， 而 只 应 在 终止 状态 到 达 时 为 真 。 
还 是 前 面 的 例子 ， 若 一 个 机 械 辟 在 非 目 标点 的 任意 其 他 点 由 于 到 达 了 片段 最 大 长 度 而 结束 
了 这 个 轨迹 ,同时 设置 了 “Done” 信 号 为 真 ， 则 会 对 学 习 过 程 产生 消极 影响 。 具 体 来 说 ， 以 
PPO 算法 为 例 ， 从 状态 S, 累计 的 奖励 值 被 用 来 估计 该 状态 的 价值 V(5,)， 而 一 个 终止 状态 
的 价值 为 0。 如果 在 非 终 止 状态 时 “Done” 信 号 的 值 为 真 ， 那 么 该 状态 的 值 被 强制 设 为 0 
了 ， 而 实际 上 它 可 能 不 应 该 为 0。 这 会 在 价值 网 络 估计 之 前 状态 值 的 时 候 让 其 产生 混淆 ， 从 
而 阻碍 学 习 过 程 。 
避免 数值 问题 。 对 于 编程 实践 中 的 除法 ， 如 果 使 用 不 当 可 能 会 产生 无 穷 大 的 数值 。 两 个 技 
巧 可 以 解决 这 类 问题 : 一 个 是 对 正 数值 的 情况 使 用 指数 缩放 a/b = exp(log(a) —log(b)); A 
个 方法 是 对 于 非 负 分 母 加 上 一 个 小 量 ， 如 a/b sa/( +1078). 
注意 奖励 函数 和 最 终 目标 之 间 的 分 歧 。 强 化 学 习 经 常 被 用 于 一 个 有 最 终 目标 的 具体 任务 ， 
而 通常 需要 人 为 设计 一 个 与 最 终 目 标 一 致 的 奖励 函数 来 便于 智能 体 学 习 。 在 这 个 意义 上 说 ， 
奖励 函数 是 目标 的 一 种 量化 形式 ， 这 也 意味 着 它们 可 能 是 两 个 不 同 的 东西 。 在 某 些 情况 下 
它们 之 间 会 有 分 歧 。 因 为 一 个 强化 学 习 智能 体能 够 过 拟 合 到 你 为 任务 所 设置 的 奖励 函数 上 ， 
而 你 可 能 发 现 训练 最 终 策 略 在 达成 最 终 目 标 上 与 你 所 期 望 的 不 同 。 这 其 中 一 个 最 可 能 的 原 
因 是 奖励 函数 和 最 终 目 标 之 间 的 分 歧 。 在 多 数 情 况 下 ， 奖 励 函 数 倾向 于 最 终 的 任务 目标 是 
容易 的 , 但 是 设计 一 个 奖励 函数 与 最 终 目标 在 所 有 极端 情况 下 都 始终 一 致 ,是 不 平庸 的 。 你 
应 该 做 的 是 尽 可 能 减少 这 种 分 歧 ， 来 保证 你 设计 的 奖励 函数 能 够 平滑 地 帮助 智能 体 达 到 最 
终 真实 目标 。 
奖励 函数 可 能 不 总 是 对 学 习 表 现 的 最 好 展示 。 人 们 通常 在 学 习 过 程 中 展示 奖励 函数 值 (有 
时 用 移动 平均 ， 有 时 不 用 ) 来 表示 一 个 算法 的 能 力 。 然 而 ， 如 同上 面 所 说 ， 最 终 目标 和 你 所 
定义 的 奖励 函数 之 间 可 能 有 分 歧 ， 这 使 得 一 个 较 高 奖励 的 状态 可 能 对 应 一 个 在 达成 最 终 目 
标 方面 较 差 的 情况 ， 或 者 至 少 没有 显 式 地 表现 出 该 状态 与 最 优 状态 之 间 的 关系 。 由 于 这 个 
原因 ， 我们 总 需要 在 使 用 强化 学 习 和 展示 结果 时 考虑 这 种 分 歧 的 可 能 性 。 所 以 ， 在 文献 (Fu 
et al., 2018) 中 很 常见 到 ， 有 的 学 习 表现 不 是 用 平滑 后 的 片段 内 奖励 (这 也 依赖 奖励 函数 的 
设计 ) 来 评估 和 展示 的 ， 而 是 用 一 个 对 这 个 任务 更 具体 的 度量 方式 ， 比 如 图 18.1 所 示 的 机 
器 人 学 习 任 务 中 ， 用 机 器 夹具 跟 目标 点 的 距离 来 实现 位 置 到 达 或 用 物 块 跟 目 标的 距离 来 实 
现 物 块 推动 。 夹 具 与 物体 间 的 距离 ， 或 者 是 否 物 块 被 抓 取 ， 这 些 都 是 对 任务 目标 的 真实 度 
量 方式 。 所 以 ， 这 些 度量 可 以 用 来 展示 任务 学 习 效 果 ， 从 而 更 好 地 体现 任务 最 终 目标 是 否 
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18.2 ”实现 阶段 





到 达 。 这 对 于 最 终 目 标 跟 人 为 设计 的 奖 


同 个 奖励 函数 ， 那 么 这 些 额外 的 度量 也 很 关键 。 





图 18.1 


。 非 马尔 可 夫 情 况 。 如 之 前 章节 所 述 ， 这 本 书 所 介绍 的 绝 大 多 数理 
状态 的 马尔 可 夫人 
题 可 以 描述 , 而且 可 以 




















励 函数 有 偏差 的 情况 很 有 月 





























OpenAl Gym 中 的 FetchPush 环境 。 对 这 个 环境 而 言 ， 使 用 物体 到 目标 位 























上 月， 如果 你 想 比 较 多 个 不 


























的 最 终 距 离 比 


























然而 奖励 函数 可 能 被 设 含 一 些 其 他 




















程 的 假设 或 站 Eh. BRAKE 





























[学 策略 的 表现 ， 因 为 它 是 对 任务 整体 目标 的 最 直接 表示 。 
因素 ， 如 夹具 到 物体 的 距离 等 ( AG 
































使 得 连续 
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E 论 结果 者 











迭代 的 方式 解决 它 , 还 能 得 到 简 
而 ， 实 践 中 ， 马 尔 可 夫 过 程 的 假设 不 总 是 成 立 。 举 例 来 说 ， 如 图 
Pong 游戏 就 不 满足 马尔 可 夫 过 程 在 
FE 质 是 状态 或 环境 的 和 
程 和 部 分 可 观测 马尔 可 夫 过 程 (POMDP) 的 差异 有 时 是 细 


了 基于 马尔 可 夫 过 
E 质 不 仅 简化 了 问题 和 推导 ， 更 重要 的 是 它 
洁 的 解决 方法 。 然 
18.2 所 示 ，Gym 环境 中 的 
E 体 选取 最 优 动 作 时 对 状态 所 做 的 假设 。 我 们 需要 记 
E 质 ， 因 此 它 是 由 状态 的 定义 决定 的 。 非 马尔 可 夫 决 策 过 
微 的 。 比 如 ， 如 果 一 个 在 上 述 游 





戏 中 状态 被 定义 为 同时 包含 小 球 的 位 置 和 速度 信息 (假设 小 球 运动 没有 加 速度 )， 而 观察 量 


况 下 它 是 一 个 非 马 尔 可 夫 环 境 。 一 利 
这 违背 了 马尔 可 夫 过 程 下 的 处 至 
以 一 种 近似 的 MDP 来 解决 Pong 41 
假设 堆 芭 帧 可 以 包含 做 H 
夫 过 程 假设 。 毕 竟 在 所 有 的 模 提 
度 上 的 连续 怕 













































































这 种 转化 方式 来 

















提供 速度 和 运动 方向 信息 的 方法 是 使 





只 有 位 置 ， 那 么 这 个 环境 是 POMDP 而 不 是 非 马尔 可 夫 过 程 。 然 而 ，Pong 游戏 的 状态 通常 
被 认为 是 每 一 个 时 间 步 静态 帧 ， 那 么 当前 状态 只 包含 小 球 的 位 置 而 没有 智 
优 动作 选择 的 所 有 信息 ， 比 如 ， 小 球速 度 和 小 球 和 运动 方向 也 会 影响 最 优 动作 。 所 以 这 种 情 


能 体能 够 做 出 最 
































方法 。 所 以 ， 如 DON (Mnih et al., 20 





历史 状态 ， 而 
15) EX, ME tpi RT UL 











Es. MRRIHENA ERWA E 
最 优 动作 选择 的 所 有 信息 ， 那 么 这 个 任务 实际 上 仍旧 遵从 马尔 可 
环境 中 ， 过 程 都 是 离散 的 ， 而 不 像 现 实 世 界 中 ， 有 时 间 尺 
巴 一 个 非 马尔 可 夫 过 程 看 作 一 个 马尔 可 夫 














个 单一 状态 ， 并 且 
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过 程 。 除 了 像 DON 原文 中 使 用 堆 县 帧 ， 循 环 神经 网 络 (RNN (Heess et aL, 2015) 或 更 高 级 
的 长 短期 记忆 (LSTM) 方法 也 可 以 用 于 以 历史 记忆 进行 决策 的 情况 ,来 解决 非 马 尔 可 夫 过 


程 的 问题 。 
| 
































图 18.2 Gym 中 的 Pong-v0 游戏 : 由 于 小 球 的 速度 无 法 在 单一 帧 中 捕捉， 这 个 任务 是 非 马尔 可 夫 
89, Bie AME So DRE 














18.3 ”训练 和 调试 阶段 


。 初始 化 很 重要 。 深 度 强化 学 习 方法 通常 要 么 以 在 线 策略 〈On-Policy) 方式 用 每 个 片段 内 的 
样本 更 新 策略 ， 要 么 使 用 离线 策略 COff-Policy) 中 动态 的 回放 缓存 (Replay Buffer)， 这 个 
缓存 包含 随时 间 变 化 的 多 样 性 样本 。 这 使 得 深度 强化 学 习 不 同 于 监督 学 习 ， 监 督学 习 是 从 
一 个 固定 的 数据 集中 学 习 ， 因 而 学 习 样本 的 顺序 不 是 特别 重要 。 然 而 ， 在 深度 强化 学 习 中 ， 
策略 的 初始 化 可 以 影响 随后 可 能 的 探索 范围 ， 并 决定 存 入 缓存 的 后 续 样 本 或 直接 用 于 更 新 
的 样本 ， 因 此 它 会 影响 整个 学 习 表 现 。 从 一 个 随机 策略 开始 会 导致 较 大 的 概率 有 更 多 样 的 
样本 ,这 对 于 训练 开始 阶段 是 很 好 的 。 但 随 着 策略 的 收敛 和 进步 ,探索 的 范围 逐渐 收 窜 ， 而 
近 趋 于 当前 策略 所 生成 的 轨迹 。 对 于 权重 参数 的 初始 化 而 言 ， 总 体 上 来 说 使 用 较 高 级 的 方 
法 如 Xavier 初始 化 (Glorot et al., 2010) 或 正 交 初始 化 (Saxe et al., 2013) 会 较 好 ， 这 样 可 以 避 
免 梯 度 消 失 或 梯度 爆炸 ， 并 且 对 多 数 深 度 学 习 情况 都 有 较 稳 定 的 学 习 表 现 。 

向 程序 中 添加 有 用 的 探 针 。 深 度 学 习 往 往 要 处 理 大 量 的 数据 ， 而 这 其 中 有 一 些 隐藏 的 操作 
是 我 们 可 能 不 总 清楚 ， 尤 其 是 当 我 们 对 模型 不 熟悉 的 时 候 。 通 常 的 报错 系统 可 能 不 是 针对 
其 中 一 些 错误 的 , 尤其 是 逻辑 错误 。 模型 中 类 似 的 潜在 问题 将 会 是 很 危险 和 难以 察觉 的 。 比 
如 ,有 时 在 深度 强化 学 习 中 , 你 只 关注 奖励 函数 , 但 是 也 应 当 可 视 化 损失 函数 值 的 变化 来 了 
解 其 他 函数 的 拟 合 情况 ,比如 价值 函数 ,或 者 随机 分 布 策略 的 箭 来 了 解 当前 的 探索 状态 。 如 
果 策 略 输 出 分 布 炉 过 早 下 降 ， 那 么 基本 上 表明 智能 体 不 能 通过 当前 策略 探索 到 更 有 用 的 样 
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A. 这 可 以 通过 使 
SAC) 等 算法 使 用 了 适应 性 炳 类 























HR IE KL 散 度 惩罚 项 来 缓解 ， 如 柔 




















自动 解决 这 类 问题 。 对 了 

















策略 间 KL 散 度 值 的 指标 来 告诉 你 模型 是 否 正常 工作 。 有 时 你 需要 输出 






































也 支持 PyTorch 框架 。 


些 探 针 很 有 帮助 。 


使 用 多 个 随机 种 子 并 计算 平均 值 来 减少 随机 性 。 深 度 强化 学 习 方法 很 : 


值 ， 要 么 是 没有 梯度 流 。 
上 情况 ，Tensorboard 模块 是 一 个 强大 的 工具 ， 它 起 初 是 为 TensorFlow 开 
它 可 以 简化 变量 的 可 视 化 过 程 、 














查 它 的 工作 情况 。 正 常 网 络 层 的 梯度 值 不 应 该 过 大 或 全 为 0 ， 否 则 它 表 明 要 么 有 异 














生 Actor-Critic (Soft Actor-Critic, 
于 信赖 域 的 方法 ， 你 需要 新 | 























网 络 的 梯度 值 来 检 
常 梯度 














其 他 有 














] 的 指标 有 像 在 输出 空间 和 参数 空间 的 
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经 网 络 计算 图 等 





更 新 步 长 ， 对 于 以 
发 设计 的 但 是 后 来 
， 对 实践 中 使 用 这 















































型 地 有 不 稳定 的 训 








练 过 程 ， 随 机 种 子 甚至 都 会 很 大 地 影响 学 习 表 现 ， 有 NumPy 的 随机 种 子 ， 以 及 TensorFlow 





或 者 PyTorch 的 ， 


这 些 种 子 都 需要 被 合适 + 














否 有 任何 

















LAM 








于 现 学 习 


























但 同时 也 1 


ERES. 
FE 


可 以 

















瓶颈 问题 。 
监督 学 习 : 


程 。 


在 



































得 到 一 个 相对 
平衡 CPU 和 GPU 
TIR 
, CPU 经 常用 于 数据 读 写 和 
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卉 的 种 子 等 。 
也 随机 化 。 
差异 ， 如 果 仍 有 随机 i 
过 程 
习 随 机 性 造成 
增加 


E. 使 用 随机 种 子 并 
I 错误 结论 的 可 能 性 。 通 常 使 


了 实验 耗 门 采 用 不 同 的 随机 种 子 进行 3 到 5 次 试验 便 

















刚 开 始 ， 你 可 以 


在 随机 化 这 些 种 子 的 时 候 ， 作 为 一 
国定 这 些 种 子 ， 然 后 观察 采样 夺 








种 默认 设置 ， 所 有 
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生 ， 可 能 表现 系统 内 还 有 其 他 随机 因素 。 
得 到 学 习 曲 线 的 平均 值 ， 可 以 减少 
用 越 多 的 随机 种 子 
























































司 定 随机 种 子 可 以 
实验 对 比 中 深度 强 
， 实 验 结果 就 越 可 



































时 。 根 据 经 验 ， 我 





























的 计算 


可 信 的 结果 ， 但 是 越 多 越 好 。 
计算 资源 以 加 速 训练 。 这 个 提示 实际 上 是 关于 找到 和 




















几 上 更 好 地 使 用 计算 资源 ， 对 于 强化 学 习 要 比 














解决 训练 速度 上 的 
监督 学 习 复 杂 。 在 
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然而 ， 由 于 强化 学 习 中 推理 过 程 总 





环境 交互 的 设备 匹配 计算 
被 用 于 与 环境 交互 采 忆 
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GPU 计算 资源 
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行 线程 和 进程 的 方式 。 注 意 上 
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的 过 程 ， 
反 向 传播 来 更 新 网 络 。 你 在 部 署 大 规模 训练 的 过 程 中 ， 
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的 浪费 。 在 强化 学 习 中 ，CPU 经 
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而 这 对 茶 些 复杂 的 模拟 系统 可 
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离线 更 新 增 大 批 尺寸 等 ， 这 些 


















































看 所 述 只 是 关于 如 何 最 大 化 利用 你 的 计算 
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分 布 式 更 新 线程 
都 依赖 于 你 管理 并 
资源 ， 你 也 应 当 考 






































虑 探索 和 利用 之 间 的 取舍 ， 以 及 对 于 多 种 多 样 的 强化 学 习 任务 在 不 同 层次 上 的 采样 效率 等 。 





为 了 解决 





CPU 和 GPU 资源 间 
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程 的 并 行 训练 框架 。 锁 和 管道 被 经 常用 于 这 种 
等 待 时 间 。 在 线 策 略 和 离线 策略 的 处 


任 















































行 设 置 经 常 更 加 灵活 ， 因 为 你 可 以 在 











| 练 过 程 


中 使 用 多 线程 








多 同时 运行 采样 线 
框架 来 支持 其 顺利 
里 可 能 不 同 ， 相 比 
何 时 刻 更 新 策略 而 
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非 仅 在 片段 的 最 后 一 步 。 一 个 典型 的 在 PyTorch 框架 下 使 用 多 GPU 分 布 式 训练 的 使 用 方式 
如 图 18.3 所 示 。 使 用 PyTorch 处 理 多 GPU 过 程 在 前 向 推理 中 采用 了 一 个 模型 复制 过 程 和 
个 推理 结果 采集 过 程 ， 而 在 反 向 更 新 过 程 中 ， 梯 度 缩减 被 用 于 并 行 的 梯度 反 向 传播 。 更 多 
相关 细节 在 强化 学 习 应 用 的 章节 中 有 所 讨论 ， 我 们 也 在 代码 库 中 提供 了 一 些 示例 程序 。 























































































































1, Scatter mini-batch inputs to GPUs 2. Replicate model on GPUs n crise a E 4. Gather outputs on GPU-1 
全 (Co CON C C e cz uci rm nea TED 
c NS 一 一 ~ | | | | 
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z= = 


t ， 9 1 [ J k J dedi] [ ál I 1 | ] (grad3_mj | 1 





图 183 {FB torch.nn.DataParallel 的 前 向 和 反 向 过 程 ( 见 彩 插 ) 


























。 可 视 化。 如果 你 不 能 直接 从 数值 中 看 清 潜在 关系 ， 你 应 当 尽 可 能 对 其 可 视 化 。 比 如 ， 有 时 
由 于 强化 学 习 过 程 不 稳定 的 特性 ， 奖 励 函数 可 能 有 很 大 抖动 ， 这 种 情况 下 你 可 能 需要 画 出 
奖励 值 的 滑动 平均 曲线 来 了 解 智能 体 在 训练 中 是 否 有 进步 。 

平滑 学 习 曲线 。 强 化 学 习 的 过 程 可 能 非常 不 稳定 。 直 接 从 未 经 处 理 的 学 习 曲 线 中 得 出 结论 
经 常 是 不 可 靠 的 ， 像 图 18.4 中 未 经 平滑 的 学 习 曲线 那样 。 我 们 通常 要 用 滑动 平均 、 卷 积 核 
等 来 平滑 学 习 曲 线 ， 并 且 选 用 一 个 合适 的 窗口 长 度 。 通 过 这 种 方式 ， 学 习 表 现 的 上 升 /下 降 
趋势 可 以 更 清楚 地 展示 出 来 ， 当 你 在 解决 一 个 有 着 很 长 训练 周期 和 较 慢 表现 进步 的 复杂 强 
化 学 习 任务 时 ， 这 么 做 可 能 很 关键 。 
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片段 
图 184 强化 学 习 中 平滑 的 和 未 平滑 的 学 习 曲 线 ( 见 彩 插 ) 
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。 理 解 探 索 和 利用 。 从 图 18.4 中 我 们 可 以 看 出 ， 学 习 曲 线 在 早期 训练 阶段 有 一 个 平台 期 。 实 
际 上 ， 这 在 强化 学 习 过 程 中 不 是 一 个 罕见 的 ， 而 是 一 个 十 分 常见 的 情况 。 这 是 因为 在 强化 

















学 习 中 ， 学 习 样 本 不 是 像 在 监督 学 习 中 那样 提前 准备 好 的 ， 而 是 通过 所 应 用 的 智能 体 策 四 
探索 得 到 的 。 因 此 ， 当 前 策略 能 否 探索 到 较 高 奖励 

键 的 。 而 这 会 引出 探索 相关 的 问题 ， 即 需要 保证 我 们 的 策略 能 逐 洲 

当 强 化 学 习 算 法 不 能 对 一 个 具体 任务 工作 时 ， 你 需要 研究 这 个 智能 体 是 否 

更 好 的 轨迹 。 如 果 没 有 ， 至 少 说 明 当 前 的 探索 方式 可 能 有 问题 。 然 而 ， 如 

探索 到 好 的 轨迹 ， 但 它 仍 不 能 收敛 到 好 的 动作 选择 ， 那 么 可 能 是 利 / 

不 能 够 较 好 地 从 好 的 轨迹 中 学 习 。 利 用 问题 可 能 是 





合 、 价 值 函数 较 低 的 学 习 率 、 较 差 的 策略 网 络 学 习 效 果 
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由 的 轨迹 在 强化 学 习 训练 中 可 能 是 很 关 











探索 到 接近 最 优 的 轨迹 。 











已 经 探索 到 那些 






































j 问 题 。 这 意味 着 策 
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线 展示 了 一 个 健康 的 学 习 进步 ， ELE 











等 造成 




















表现 会 
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也 调试 代码 裔 


首先 质疑 你 的 算法 实现 。 当 你 内 
很 重要 。 算 法 实现 上 








M, 
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在 保证 实现 正确 
的 过 程 : 先 
微调 分 布 式 的 j 


对 超 参 数 



































性 的 前 提 下 


| 练 过 程 。 
的 糟糕 选择 、 未 经 归 一 化 的 输入 数据 等 ， 而 最 





;提升 〈 在 平台 期 后 )。 





| 完成 代码 实现 以 后 ， 
的 正确 性 总 















































fF 本 被 探索 到 在 平 


是 要 先 于 
再 考虑 微调 超 参数 。 而 这 
小 规模 例子 测试 来 保证 算法 实现 的 正确 


pay 
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它 不 会 工作 ， 是 














也 正 是 本 章 玫 


较 低 的 样本 效率 、 较 差 的 价值 函数 氟 
的 。 图 18.4 中 月 
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期 中 )， 策 略 更 新 会 使 学 习 





民 常 见 的 ， 而 这 时 ， 耐 
微调 一 个 相对 好 的 结果 ， 因 此 ， 应 
F 头 提 到 的 强化 学 习 应 
生 ， 然 后 逐步 扩展 到 大 规模 环境 并 


























个 糟糕 的 学 习 表现 可 能 


很 多 因 
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为 了 给 读 3 





提供 











中 也 参考 了 一 些 外 前 
Falcon 的 相关 博客 3 等 。 我 们 也 建议 读者 参考 这 些 总 结 得 较 好 的 建议 和 来 









































HA 























的 关于 强化 学 习 算法 在 具体 项 


目 应 用 上 的 指导 




















































































































帮助 实现 自己 的 强化 学 习 算法 和 应 用 。 查 阅 与 你 所 做 内 容 
验 ， 总 是 很 有 帮助 的 。 

此 外 ， 读 者 需要 知道 只 是 
强烈 推荐 读者 自己 手动 实现 一 些 代码 来 获取 实践 经 验 ,只 
大 作用 。 
参考 文献 
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素 导 致 ， 如 不 充足 的 训练 时 间 、 
见 的 原因 是 代码 实现 中 的 错误 。 
门 在 写本 章 的 过 程 
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阅读 上 面 段落 中 经 验 性 的 指示 而 不 实践 ， 几 乎 没 
通过 这 种 方式 才能 发 挥 这 些 技巧 的 最 
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为 了 帮助 读者 快速 查阅 与 比较 不 同 的 算法 ， 我 们 在 附录 A 总 结 了 介绍 过 的 算法 及 其 对 应 论 


X, EMK B 提供 了 






































个 算法 的 伪 代 码 ， 附 录 C 提供 英文 首 
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英文 对 照 表 。 
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的 。 我 们 希望 这 样 能 为 读者 寻找 相关 文献 提供 
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， 我 们 将 那些 常见 的 强化 学 习 算 法 总 结 成 
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强化 学 习 算 法 
























































强化 学 习 算 法 | 策略 动作 空间 | 年 份 文献 作者 
. 离线 策略 Ert j $ Cristopher J.C.H Watkins 
Q-Learning (Off-Policy) 离散 1992 | Q-Learning (Watkins et al., 1992) and Peter Dayan 
SARSA 在 线 策略 离散 1994 Online Q-Learning using Connectionist G.A.Rummery and M. 
(On-Policy) i Systems (Rummery et al., 1994) Niranjan 
ERU du dns Human-level Control Through Deep ; 
线 B 
RGN 离线 策略 ra a Reinforcement Learning (Mnih et al., 2015) Volodymyp Nib etal: 
: du Lb AA ud Dueling Network Architectures for Deep ; 
线 B 
Dueling BON 离线 策略 离散 2018 Reinforcement Learning (Wang et al., 2015) Ziyi Wane CAE 
ys Git = Deep Reinforcement Learning with Double 
线 B 
Double DON 离线 策略 离散 2016 Q-Learning (Van Hasselt etal. 2016) Hado van Hasselt, et al. 
Noisy DON 离线 策略 离散 2017 y "ou Toc Pplorauon (Poruinato Meire Fortunato, et al. 
sx da duse d A Distributional Perspective on Reinforcement 
2E SW B 
Distributed DQN | 离线 策略 离散 2017 Leatniing- (Bellemiate eral; 2017) Marc G. Bellemare, et al. 
Actor-Critic A Gr th ae? d 3 Vijay R. Konda and John N. 
y d 艇 或 连续 : 
(QAC) 在 线 策 略 离散 或 连续 | 2000 | Actor-Critic Algorithms (Konda et al., 2000) Tsitsiklis 
hte Grip Asynchronous Methods for Deep : 
^t Se 散 或 连续 ) | 
ASE 在 线 策略 离散 或 连续 | 2016 Reinforcement Learning (Mnih et al., 2016) volo nest 
DDPG 离线 策略 车 续 2016 Continuous Control With Deep Reinforcement Timothy P. Lillicrap, et al. 


























Learning (Lillicrap et al., 2015) 
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强化 学 习 算 法 
( 续 表 一 ) 
强化 学 习 算 法 | 策略 动作 空间 | 年 份 文献 作者 
p Ga th Pde bs On the Use of Backpropagation in Associative PEN 

REINFORCE 在线 策略 离散 或 连续 | 1988 | 5 Ronald J. Williams 

Reinforcement Learning (Williams, 1988) 
rye s Addressing function approximation error in T 
线 车 续 

TDS 离线 策略 ERR 2015 actor-critic methods (Fujimoto et al., 2018) Sect Fuel era 

SAC 离线 策略 离散 或 连续 | 2018 Soft ASOT CE algonthins and Tuomas Haarnoja, et al. 
applications (Haarnoja et al., 2018) 

TRPO 在 线 策略 离散 或 连续 | 2015 Trust region policy optimization (Schulman John Schulman, et al. 
et al., 2015) 

Ate aS dere Proximal policy optimization 
车 线 Hy BEE 

PPO 在 线 策略 离散 或 连续 | 2017 algorithms (Schulman et al., 2017) Jone Seu era, 

DPPO 在 线 策略 离散 或 连续 | 2017 Emergence of locomotion behaviours in rich Nicolas Heessret al. 
environments (Heess et al., 2017) 
Scalable trust-region method for deep 

ACKTR 在 线 策略 离散 或 连续 | 2017 | enforcement learning using — Yuhuai Wu, et al. 
Kronecker-factored approximation (Wu et al., 
2017) 
The cross-entropy method: A unified approach 

CE Method 在 线 策 略 离散 或 连续 | 2004 to:Monte Carlo simulatjon randoimized R. Rubinstein and D. Kroese 




















optimization and machine learning (Rubinstein 
et al., 2004) 
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总 结 





T ORE) 强化 学 习 的 算法 和 关键 概念 。 这 些 算法 被 分 为 四 个 部 分 : 深度 学 习 、 





附录 B 总 结 
强化 学 习 、 深 度 强化 学 习 和 高 等 深度 强化 学 习 。 为 了 便于 读者 学 习 ， 我 们 为 每 个 算法 提供 了 伪 代 
记号 和 术语 与 整 本 书 一 致 。 














保持 数学 符号 、 变 遇 











人 码 。 我 们 尽量 在 行文 
B1 深度 学 习 


B.1.1 随机 梯度 下 降 
算法 B.43 随机 梯度 下 降 的 训练 过 程 














Input: 参数 9, 学 习 率 o, 训练 步 数 /迭代 次 数 5 


fori=0toS do 
计算 一 个 小 批量 的 £ 

通过 反 向 传播 计算 96 

v0 — —a: 25; 

0 —0-- vo 更 新 参数 


end for 
return 6; 返回 训练 好 的 参数 
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B.1.2 Adam 优化 器 
算法 B.44 Adam 优化 器 的 训练 过 程 








Input: 参数 0, 学 习 率 a, 训练 步 数 /迭代 次 数 S, Bı = 0.9, 82 = 0.999,e = 1078 
mo < 0; 初始 化 一 阶 动量 
vo + 0; 初始 化 二 阶 动量 
for t = 1 to S do 
ac. | I BER ASEBA 
m, — By * mii + (1— 51) * 25: 更 新 一 阶 动量 
v; € Bo * Vii (1 — 82) * (2 £) 更 新 二 阶 动量 
Ty — 174 计算 一 阶 动量 的 滑动 平均 
$, — 1*5 ;计算 二 阶 动量 的 滑动 平均 
VO — —ax NAE 
0 — 64 VO; 更 新 参数 
end for 
return 0; 返回 训练 好 的 参数 


T| 


























fiti 
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B.2.1 ”赌博 机 
随机 多 辟 赌 博 机 (Stochastic Multi-armed Bandit) 
算法 B.45 多 辟 赌 博 机 学 习 





初始 化 K 个 手臂 

定义 总 时 长 为 全 

每 一 个 手臂 都 有 一 个 对 应 的 w € [0, 1]. 每 一 个 奖励 都 是 独立 同 分 布地 从 ww 中 采样 得 到 的 
fort =1,2,--- ,T do 

智能 体 从 K 个 手臂 中 选择 A, = i 

oe 2e R; = (Ri, RẸ, o, RE) 







































































end for 





HS SABA CAdversarial Multi-armed Bandit) 
算法 B.46 对 抗 多 臂 赌博 机 








初始 化 K 个 机 器 手臂 
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fort = 1,2,--- , T do 
智能 体 在 K 个 手臂 当中 选中 五 
对 抗 者 选择 一 个 奖励 值 向 量 R, = (Ri, R2,--- , RE) € [0,1]* 
智能 体 观察 到 奖励 RE (根据 具体 的 情况 也 有 可 能 看 到 整个 奖励 值 向 量 ) 


end for 























































































































算法 B.47 针对 对 抗 多 辟 赌 博 机 的 Hedge 算法 





初始 化 天 AEB 
Gi(0) for i = 1,2,--- ,K 
fort =1,2,--- , T do 
智能 体 从 p(t) 分 布 中 选择 A, = d, Kn 











exp(Gi(t — 1)) 


HE DE exp(nG;(t — 1)) 





智能 体 观 测 到 奖励 gi 
让 Gi(t) = G(t - 1) + gi, Vi € [1, K] 
end for 








B.2.2 ”动态 规划 
策略 迭代 (Policy Iteration) 


算法 B.48 策略 迭代 





对 于 所 有 的 状态 初始 化 VV 和 
repeat 
/执行 策略 评估 
repeat 
ó —0 
for s c S do 
v — V(s) 
V(s) © X, alr + V (s) P(r, s, n(s)) 
ô + max(0d, |v — V (s)|) 




















end for 
until 6 小 于 一 个 正 阔 值 
// 执 行 策略 提升 


stable < true 
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for s c S do 
a € t(s) 
m(s) — arg maxa >, (r+ yV(s’)) P(r, s'|s, a) 
if a Æ 7(s) then | 
stable — false 
end if 
end for 
until stable — true 
return 策略 7 





价值 迭代 (Value Iteration) 





算法 B.49 价值 迭代 
为 所 有 状态 初始 化 V 
repeat 
ó —0 
for s c S do 
u + V(s) 
V(s) — maxa 55, s 
ô + max(d, |u — V (s)|) 


P(r, s'|s, a)(r +7V(s’)) 


end for 
until ô / T — ERE 
输出 贪心 策略 (s) = arg maxa Z, y P(r, ss a) (r + V (s^) 











B.2.3 ”蒙特 卡 罗 


蒙特 卡 罗 预 测 
算法 B.50 首次 蒙特 卡 罗 预 测 























输入 : 初始 化 策略 元 
初始 化 所 有 状态 的 V(s) 
初始 化 一 列 回报 : Returns(s) 对 所 有 状态 


repeat 
通过 m: So, Ao, Ro, 951 , ST 1, Ami Ri 生成 一 个 回合 














G —0 
t—T-1 
for t >= 0 do 

G + yG + Rua 
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if 50,91 , 9, 4 没有 Si then 
Returns(5,).append(G) 
V(S4) ¢ mean(Returns(S;)) 
end if 
t= 





end for 
until 收敛 
蒙特 卡 罗 控 制 
算法 B.51 蒙特 卡 罗 探 索 开始 
初始 化 所 有 状态 的 a(s) 
对 于 所 有 的 状态 -动作 对 ， 初 始 化 Q(s, a) 和 Returns(s, a) 
repeat 
随机 选择 So 和 Ao 直到 所 有 状态 -动作 对 的 概率 为 非 零 
根据 0: So, Ao, Ro, 5S1,… ,ST_1, Apa, Ri 来 生成 So, Ao 
G —0 
t—T-1 
for t >= 0 do 
G — yG + Ri 
if So, Ao, S1, A1 +- , 914, Aca XA Sı, Ay then 
Returns( S+, A;).append(G) 
Q(S,, Az) < mean(Returns(S;, A;)) 
7T($,) — arg max, Q(S;, a) 
end if 
tct-1 
























































end for 
until i$ 


时 间 差 分 (Temporal Difference, TD) 


算法 B.52 TD(0) 对 状态 值 的 估算 
输入 策略 元 
初始 化 V(s) MAK a € (0, 1] 
for 每 一 个 回合 do 
初始 化 So 
for 每 一 个 在 现 有 的 回合 的 S; do 
A, € 7(St) 
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Rett, $11 = Env(Si, At) 
V(S;) — V(S;) + af Regi +V (Si+) - V (S) 





























end for 
end for 
TD(A) 
算法 B.53 状态 值 半 梯度 TDA) 
输入 策略 m 





mi 
Tu 
g 














初始 化 一 个 可 求 导 的 状态 人 


for 对 每 一 个 回合 do 


函数 v、 步 长 a 和 状态 值 函数 权 习 



































初始 化 So 

zc—0 

for 每 一 个 本 回合 的 步骤 S, do 
TE FH m REFE A, 





Resi, 6,41 € Env(Si, Az) 
z € yAz + VV (Si, ux) 
0 4 Ripi + VV (9044, we) — V (St, we) 
w + w +aôz 
end for 
end for 





Sarsa: 在 线 策 略 TD 控制 


算法 B.54 Sarsa (在 线 策略 TD 控制 ) 


= 











对 所 有 的 状态 -动作 对 初始 化 Q(s, a) 
for 每 一 个 回合 do 

初始 化 So 

用 一 个 基于 Q 的 策略 来 选择 Ao 

for 每 一 个 在 当前 回合 的 S, do 
一 个 基于 Q 的 策略 从 S, 选择 A, 

R44, 5441 € Env(Si, Az) 

从 Sui 中 用 一 个 基于 Q 的 策略 来 选择 Api 

Q(S:, Ai) — Q(St, At) + ona t YQ(St41, Aca) — Q(S:, A)] 
end for 









































SR 



































end for 
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N 步 Sarsa 


算法 B.55 N 步 Sarsa 
对 所 有 的 状态 动作 对 初始 化 Q(s, a) 
初始 化 步 长 a € (0, 1] 
决定 一 个 固定 的 策略 oe 或 者 使 用 e- 贪 心 
for 每 一 个 回合 do 
初始 化 So 
使 用 m(So, A) 来 选择 Ao 
T —INTMAX (一 个 回合 的 长 度 ) 
y —0 
fort «—0,1,2,--. until y — T — 1 do 
if t < T then 
Ri+1, St+1 € Env (Sr, At) 
if $,,4 是 终止 状态 then 
T —t-41 
else 
使 用 m(S,, A) 来 选择 Aia 
end if 
end if 
Tet—nt+1 (更 新 的 时 间 点 。 这 个 是 n 步 Sarsa， 所 以 只 需要 更 新 那个 mn 十 1 前 的 一 步 ， 
就 会 持续 这 样 下 去 ， 直 到 所 有 状态 都 被 更 新 。) 
if 7 > 0 then 
Gc DE grt, 
ifyt+n< T then 
GH G+ 7"Q(Stin, Ay+n) 
end if 
Q(S,, A4) = Q(Sy, A4) + a[G — Q(S,. A.) 
end if 
end for 











= 


























































































































end for 


Q-learning: 离线 策略 TD 控制 








算法 B.56 Q-learning (离线 策略 TD 控制 ) 
初始 化 所 有 的 状态 -动作 对 的 Q(s, a) 以 及 步 长 a € (0, 1] 


for 每 一 个 回合 do 
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初始 化 So 
for 每 一 个 在 当前 回合 的 S, do 

使 用 基于 Q 的 策略 来 选择 Ay 

R44, St+1 € Env(Si, Az) 

Q(St, At) — Q(St, At) + a[ Regi + ^y maxa Q(Si41,@) — Q(St, Aid] 
end for 














end for 





B3 AES 


深度 Q 网 络 (Deep Q-Networks, DQNO 是 一 个 将 Q-learning 通过 深度 神经 网 络 来 拟 合 价值 
函数 ， 从 而 延伸 到 高 维 情况 的 方法 ， 它 使 用 一 个 目标 动作 价值 网 络 和 一 个 经 验 回放 缓存 来 更 新 。 
主要 思想 : 
。 用 神经 网 络 进行 Q 值 函数 拟 合 ; 
。 用 经 验 回放 缓存 进行 离线 更 新 ; 
。 目标 网 络 和 延迟 更 新 ; 
。 用 均 方 误差 或 Huber 损失 来 最 小 化 时 间 差分 (Temporal Difference, TD) 误差 。 





















































































































































算法 B.57 DON 
BEM: 回放 缓存 容量 N、 奖 励 折 扣 因 子 yY、 用 于 目标 状态 -动作 值 函 数 更 新 的 延迟 步 长 C. 
e-greedy 中 的 e 
输入 : 空 回 放 缓 存 卫 ， 初 始 化 状态 -动作 值 函数 Q 的 参数 0 
使 用 参数 0 — 0 初始 化 目标 状态 -动作 值 函数 Â 
for 片段 = 0,1,2,--- do 
初始 化 环境 并 获取 观测 数据 Oo 
初始 化 序列 So = {Oo} 并 对 序列 进行 预 处 理 oo = (So) 
for t= 0,1,2, --- do 
通过 概率 e 选择 一 个 随机 动作 A;， 否 则 选择 动作 A, = arg max, Q(6(5;), a; 0) 
执行 动作 A, 并 获得 观测 数据 Orpi 和 奖励 数据 Ry 
如 果 本 局 结束 ， 则 设置 D,=1, f Dt = 0 
设置 Siyi = {St Ar, Orpa} 并 进行 预 处 理 $441 = 9(S441) 
存储 状态 转移 数据 (84, Ar, Re, Di t+) 到 人 DD 中 
从 也 中 随机 采样 小 批量 状态 转移 数据 (Qi, Ai, Ri, Di, 内) 
如 果 D; = 0， WE Y; = Ri -ymaxy Q(¢,0',6), TURE Y; = Ri 
在 (Y; — Q(ó;, A50)? EXT 0 执行 梯度 下 降 步 又 
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每 C 步 对 目标 网 络 Q 进行 同步 
如 果 片 段 结束 ， 则 跳出 循环 


end for 


























end for 











Double DQN 是 一 个 DQN 的 改进 版 本 ， 用 来 解决 过 估计 COverestimation) 问题 。 
主要 思想 : 
* X Q 网 络 是 一 种 对 目标 价值 估计 的 嵌入 式 方法 ， 一 个 Q 估计 值 被 嵌入 另 一 个 Q 估计 值 中 。 
更 改 上 面 DON 算法 的 第 14 TNS Y; = Ry + (1 — Dj) Q (0541, arg maxa Q(6541, a; 05); 0). 

Dueling DQN 是 对 DQN 的 一 个 改进 版 本 ， 它 将 动作 价值 函数 分 解 为 一 个 状态 价值 函数 和 一 
个 依赖 状态 的 动作 优势 函数 。 

主要 思想 : 

。 将 动作 价值 函数 Q 分 解 为 值 函数 VY 和 优势 函数 4。 
更 改 DQN 中 动作 价值 函数 @( 及 它 的 目标 @%) 的 参数 化 方式 为 @(s,a; 9, 0u, 0a) = V(s;0, Oy) + 



































































































































































































































(A(s, a; 0,0,)—maxq A(s, a^; 0,0,)) 8X, Q(s,a;0,0,,0,) = V(s;9, Oy) +(A(s, a; 9, 0a)— a 而 4(s， a’; 0, 
Da))e 

REINFORCE 是 一 个 使 用 基于 策略 优化 和 在 线 策略 更 新 的 算法 。 
算法 B.58 REINFORCE 





输入 : 初始 策略 参数 0 
for k = 0,1,2,--- do 
初始 化 环境 
通过 过 在 环境 中 运行 策略 Ty = T(Ok) 收集 轨迹 数 oe Dk = iri = (Si, Ar, Re)lt =0,1,--- TH 
计算 累计 奖励 G 
估计 策略 梯度 gs = mp Eren, Lezo Vo log re (A«d|S0) lo, Ge 
通过 梯度 上 升 更 新 策略 O41 = Ok 十 akgk 
end for 




































































带 基准 函数 的 REINFORCE 算法 或 称 初版 策略 梯度 (REINFORCE with Baseline/Vanilla Policy 
Gradient) 是 REINFORCE 的 另 一 个 版 本 ， 它 使 用 动作 优势 函数 而 不 是 累计 奖励 来 估计 策略 梯度 。 
算法 B.59 带 基 准 函 数 的 REINFORCE 算法 

超人 参数 : 步 长 1、 奖励 折扣 因子 y. BRL. ORT B、 基 准 函 数 b. 
输入 : 初始 策略 参数 Oo 
初始 化 0=00 
for k = 1,2,--- , do 
执行 策略 re 得 到 B 个 轨迹 ， 每 一 个 有 工 步 ， 并 收集 (Suo, Ane, Rec} 
Ate = oe at x T = HS.) 
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J(0) = b Xa Xeo log To (Arel Ste) Ave 
0 =0+mVJ(0) 
FA (Sio, Ate, Rec} 更 新 b(S:.2) 

end for 

返回 0 




















Actor-Critic 是 一 个 改 自 REINFORCE 的 算法 ， 它 使 用 价值 函数 拟 合 。 














算法 B.60 Actor-Critic 算法 
超 参数 : 步 长 m Al nos ZAMAT y 
输入 : 初始 策略 函数 参数 bo, 初始 价值 函数 参数 wo 
初始 化 9= 00 和 w= vo 
for t = 0,1,2,--- do 
执行 一 步 策略 mo, 保存 (55, Ar, Re, S41} 
估计 优势 函数 A, = Ry + WV? (Sua) — VZ’ (Se) 
J(0) = Y, log To (4:9:1) Ar 
Jye (9) = Dy AP 
V = b+ yV Jyzo (4), 0 = 0 + meV J(0) 
end for 


返回 (6, v») 



































Th 








Q 1B Actor-Critic (Q-value Actor-Critic, QAC) 是 另 一 个 版 本 的 Actor-Critic 算法 ， 作 为 基本 
价值 (比如 Q-Learning) 和 基于 策略 〈 比 如 REINFORCE) 优化 方法 的 结合 ， 使 用 在 线 策 略 更 新 
的 方式 。 

主要 思想 : 


。 结 合 DQN fll REINFORCE. 























算法 B.61 QAC 
输入 : 初始 策略 参数 9、 初始 动作 价值 函数 @ 的 参数 w、 折 扣 因 子 y 
for k = 0,1,2,--- do 



































初始 化 环境 
通过 在 环境 中 运行 策略 om, = (94)， 收 集 轨 迹 数 据 集 Di = (n = {(S;, An Re Dolt = 
0, 1,. TJ). 


计算 TD 误差 h = Re t+ y maxy Qu (St41, 0’) — Qul St, At) 
计策 略 梯度 如 ge = r5 Eren, Diao Vo log re (AdS0) lo Qu (Sc, Ac) 
通过 梯度 上 升 更 新 策略 01 = Ok + o gi 

使 用 均 方 误差 更 新 动作 价值 函数 dey = arg ming pir Lren, Dico 07 通过 梯度 下 降 算法 


u 
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end for 











优势 Actor-Critic (Advantage Actor-Critic, A2C) 是 Actor-Critic 算法 的 改进 版 本 ， 它 使 用 有 
基准 的 REINFORCE 而 非 初版 REINFORCE 来 进行 策略 优化 ， 并 且 使 用 在 线 策 略 更 新 。 

主要 思想 : 

。 结 合 DQN 和 有 基准 的 REINFORCE。 
































































































































算法 B.62 A2C 

Master: 
超 参 数 : HAR ny 和 no, worker 节点 集 Y 
输入 : 初始 策略 函数 参数 Oo, 初始 价值 函数 参数 wo 
初始 化 0= 09 I v = wo 
for k = 0,1,2,--- do 

(gu; go) = 0 

for W 里 每 一 个 worker 节点 do 

(gu. go) = (gu; go) + worker(V.7^, mo) 
end for 





p = V — My gy; 0 = 0 + Nogo. 
end for 





Worker: 

超 参 数 : 奖励 折扣 因子 y, 轨迹 长 度 L 

输入 : 价值 函数 Vins 策略 函数 re 

执行 工 步 策略 mo, 保存 (S1, Ar, Re, St+1} 

估计 优势 函数 A, = Ri 十 Wig’ (S41) — Vie? (Se) 
J(0) = >, log To (AlS) Ar 

Jyz() = Z, AB 

(99.90) = (Y Jyzo (0), VJ(0)) 

返回 (gy, go) 




































































异步 优势 Actor-Critic (Asynchronous Advantage Actor-Critic, A3C) 是 一 个 A2C 的 修改 版 本 ， 
它 使 用 异步 梯度 更 新 来 实现 大 规模 并 行 计 算 。 
主要 思想 : 
。 异步 更 新 策略 。 
算法 B.63 A3C 
Master: 


BEM: 步 长 ny 和 me, 当前 策略 函数 ro, 价值 函数 Vs。 

































































461 


附录 B 算法 速 查 表 





输入 : 梯度 gu. go 
p = V — nogy; 0 = 0 + go 
返回 (V.7^, To) 








Worker: 
MSR: 奖励 折扣 因子 Y、 轨 迹 长 度 工 
输入 : 策略 函数 re、 价值 函数 Vo’ 
(ge, gu) = (0,0) 
for k = 1,2,---,do 
(0, Y) = Master(go, gy) 
执行 工 步 策略 mo, 保存 (50, Ar, Ri, Str1}。 
估计 优势 函数 A, = Ry + VI" (913) — V; (8) 
J(0) = Xo, log To (AlS) À; 
dye (V) = > A? 
(gy, go) = (V Jyzo (Y), VJ(8)) 
end for 
























































深度 确定 性 策略 梯度 (Deep Deterministic Policy Gradient, DDPG) 是 DQN 和 QAC 的 结合 ， 
它 使 用 确定 性 策略 ， 并 采用 经 验 回放 缓存 和 离线 策略 更 新 的 方式 。 





























tas] 























。 确定 性 策略 作为 动作 空间 上 Q 值 的 最 大 化 算 子 的 拟 合 ; 
。 用 Ornstein-Uhlenbeck 或 高 斯 噪声 进行 随机 动作 的 探索 ; 
。 目标 网 络 和 延迟 更 新 。 






























































算法 B.64 DDPG 
BEM: 软 更 新 因子 p， 奖 励 折扣 因子 7 
输入 : 回放 缓存 D， 初 始 化 Critic 网 络 Q(s, aj09) 参数 09. Actor 网 络 r(s|br) 参数 gr、 目标 
网 络 Q'. 7’ 
初始 化 目标 网 络 参数 Q RI s^. Wei o9" — 99.07 — o7 
for episode = 1, M do 
初始 化 随机 过 程 W 用 于 给 动作 添加 探索 



























































接收 初始 状态 Sy 
for t= 1,7 do 





选择 动作 A, = n(S,|07) +N 
执行 动作 A, 得 到 奖励 尺 ， 转 移 到 下 一 状态 Stat 
存储 状态 转移 数据 对 (Se, At, Ri, Dt, Si41) 到 DD 
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B.3 深度 强化 学 习 





4 Yi = Ri t+ Y» — DAQ’ (Sty, T (St41|67 69 ) 


通过 最 小 化 损失 函数 更 新 Critic 网 络 : 
L= 654 -Q(S;,AJ0?)? 
通 








通过 策略 梯度 的 方式 更 新 Actor 网 络 : 

Vor J & N 34 VaQ(s, 2/9?) |5=5;,a=n(8;) Vor™(8]97)| 5, 
更 新 目标 网 络 : 

09' & pO? + (1 — p)89' 

07 ¢ p07 + (1 — p)0* 


end for 

















过 | 














end for 

















a5 {EIR DDPG (Twin Delayed DDPG, TD3) 是 一 个 更 先进 的 基于 DDPG 的 算法 ， 它 使 用 挛 生 
动作 价值 网 络 ， 并 对 策略 和 目标 网 络 采用 延迟 更 新 。 
主要 思想 : 
* Double Q-learning; 
。 对 目标 网 络 和 策略 的 延迟 更 新 ; 
。 对 目标 策略 的 平滑 正则 化 。 
















































































算法 B.65 TD3 
BER: 软 更 新 因子 p， 回 报 折扣 因子 y RAF c 
输入 : 回放 缓存 D， 初 始 化 Critic 网 络 Qo, Qo, 参数 01,02 WIU Actor 网 络 no 参数 o 
初始 化 目标 网 络 参数 0 — 01,02 — 02,0 — 6 
for t = 1 to T dodo 
选择 动作 Ay ~ Tel St) +e, € ~ N (0,0) 
接受 奖励 R 和 新 状态 Sua 
存储 状态 转移 数据 对 (S, At, Ri, Di, $441) 到 D 
M D PRERNA N 的 小 批量 样本 (Si, At, Re, De, St41) 
iyi € Ty (Sí) + 6€ ~ clip(N (0,6,—c,c)). 
y €— Ra o yY(1 — Di) mini=1,2 Qe; ($141,141) 
更 新 Critic 网 络 0; — arg mingo, N^! Y: (y — Qe, (Sj, At))? 
if t mod d then 
更 新 9: 
Ved (o) = N Y VaQa (St, At) (8) V ere (St) 
更 新 目标 网 络 : 
6; + p; + (1— p); 
-pe - (1 — p)ó 






























































c 
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附录 B 算法 速 查 表 





end 让 
end for 



































柔性 Actor-Critic (Soft Actor-Critic SAC) 是 一 个 更 先进 的 基于 DDPG 的 算法 ， 使 用 额外 的 
KER (Soft Entropy) 项 来 促进 探索 。 


主要 思想 : 


- JRL UCR TEXETRER s 

Double Q-learning; 

。 再 参数 化 技巧 使 得 随机 性 策略 可 微 并 用 确定 性 策略 梯度 更 新 ; 
Tanh 高 斯 型 动作 分 布 。 


算法 B.66 SAC 
超 参 数 : HIR k, HK AQ, Ar, Aa, 指数 移动 平均 系数 T 
输入 : 初始 策略 函数 参数 0, 初始 Q 值 函 数 参 数 $1 K o2 
D = 0; 6; = di fori = 1,2 
fork =0,1,2,---. do 
fort = 0,1,2,--- do 
从 Toll Se) 中 取样 At, 保存 (Re, St41)0 
D = DWAS At, Ri, S4) 
end for 
进行 多 步 梯度 更 新 : 
Qi = $; — AqVJa(¢i) for i = 1,2 
6=0—A,VoJn(O) 
a=a-AgVI(a) 
à; = (1—7)b; + 7G; for i = 1,2 
end for 
返回 0, G1, 加。 







































































信赖 域 策略 优化 〈Trust Region Policy Optimization, TRPO) 是 一 个 使 用 二 阶梯 度 下 降 和 在 线 
策略 更 新 的 信赖 域 算法 。 
主要 思想 ， 

。 用 KL 散 度 〈KL-divergence) 来 使 得 新 旧 策 略 在 策略 空间 中 接近 ; 
。 有 限制 的 二 阶 优化 方法 ; 
。 EHIE (Conjugate Gradient) Kit fait EE (Inverse Matrix). 
































a 














— 




















算法 B.67 TRPO 
MSR: KL- 散 度 上 限 6, 回调 系数 a, 最 大 回调 步 数 K 
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B.3 


深度 强化 学 习 

















输入 : 回放 缓存 Dk, 初始 策略 函数 参数 0o, 初始 价值 函数 参 
for episode = 0,1,2,--- do 

在 环境 中 执行 策略 m = (Ox) 
计算 将 得 到 的 奖励 Gi 
基于 当前 的 价值 函数 Yon 计算 优 
占 计 策略 梯度 9 = DT Veep, Yizo Vologro(4i|54) 






































并 保存 轨迹 集 Dy = 























Ok 





















































































































































势 函数 估计 A (使 用 任何 估计 优势 的 方法 ) 

















吕 用 共 罗 梯度 算法 计算 dy zo Ay gy 这 里 Ay 是 样本 平均 KL 散 度 的 Hessian 矩阵 
通过 回 湖 线 搜索 更 新 策略 Oh a = Or o [L1 â 这 里 j 是 {0,1,2,… K} 中 提高 样本 
损失 并 且 满 足 样本 KL 散 度 约 束 的 最 小 信 
通过 使 用 梯度 下 降 的 算法 最 小 化 均 方 误差 来 拟 合 价值 函数 ， Or = argming phr 
~ \2 
en. m (ValS) 3 Gi) 
end for 
近 端 策略 优化 〈 征 罚 型 ) (Proximal Policy Optimization, PPO-Penalty) 是 一 个 基于 TRPO 的 





信赖 域 算 法 ， 它 使 用 一 阶 
主要 思想 : 
用 KL 散 度 来 使 得 新 旧 策 略 在 策略 空间 中 接近 ; 
。 将 受 限 优化 问题 转化 为 一 个 不 受 限 的 问题 ; 
。 用 一 阶 方法 来 避免 计算 Hessian FER; 
。 自 适应 地 调整 惩罚 系数 。 


梯度 和 以 一 个 自 适应 惩罚 项 实现 的 信赖 域 限制 。 





= 



























































"AE 
































算法 B.68 PPO-Penalty 








超 参数 : 奖励 折扣 因子 7，KL 散 度 惩罚 系数 A， 
输入 : 初始 策略 函数 参数 9、 初始 价值 函数 参数 $。 
fork = 0,1,2,--- do 





















































HT T ERNE mo, TAE (St, At, Re} 
估计 优势 函数 A, = Dase TE Rp — Val Se). 
Told <— To 
for m € {1,---,M}do 
Jppo(8) = Ya E ERE Â, — AÊ; [Di (ro C10) llao C/80))] 
使 用 梯度 算法 基于 .ppo(0) 更 新 策略 函数 参数 0。 
end for 
for b € {1,--- , B) do E 
L(¢) = -5 1 (Dost “Ry — Vo(St)) 
使 用 梯度 算法 基于 L(b) 更 新 价值 函数 参数 os 





适应 性 参数 a = 1.5,b = 2, 子 迭 代 次 数 M, B. 
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附录 B 算法 速 查 表 





end for 
iH d = By [Dkr(roa(.159llre(1S9)] 
if d < dtarget/a then 
A — Afb 
else if d > dtarget xX a then 
À«—Axb 
end if 
end for 




















近 端 策略 优化 《〈 截 断 型 ) 是 一 个 基于 TRPO 的 信赖 域 算 法 ， 它 使 用 一 阶梯 度 和 以 一 个 对 梯度 
的 截断 方法 实现 的 信赖 域 限制 。 
主要 思想 : 


。 在 目标 函数 中 用 截断 方法 蔡 换 KL- 散 度 的 限制 。 


a 





























= 























算法 B.69 PPO-Clip 

超 参 数 : 截断 因子 e 子 迭 代 次 数 M, B. 

输入 : 初始 策略 函数 参数 0, 初始 价值 函数 参数 6 
for k = 0,1,2,--- do 
在 环境 中 执行 策略 ro, 并 保存 轨迹 集 Dy, = (0) 
计算 将 得 到 的 奖励 Gi 
基于 当前 的 价值 函数 Vo, 计算 优势 函数 A, 〈 基 于 任何 优势 函数 的 估计 方法 ) 
for m € {1,--- , M} do 
Ll0) = ZECHTO 采用 Adam 随机 梯度 上 升 算法 最 大 化 PPO-Clip 的 目标 函数 来 更 新 策略 : 


To) AlS) 






















































































T 
= "P i ^) A 14 

kii = aenak [D.T 2 > min (4; (0°) A” (S4, At), 

clip(4(0"), 1 — €, 1 十 €) A" ou (Si, At)) 
end for 
for b € {1,--- , B} do 

JW NR 差 来 学 习 价值 函数 : 

Ọk+1 = arg ming IDT ee: wa 0 (ValS) (St) 一 Gi 
end for 




















2 





end for 





使 用 Kronecker 因子 化 信赖 域 的 Actor-Critic (Actor Critic using Kronecker-Factored Trust 
Region, ACKTR) 是 一 种 信赖 域 在 线 策略 算法 ， 对 二 阶 自然 梯度 计算 使 用 Kronecker 因子 化 近似 。 


主要 思想 ; 
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。 使 用 自然 梯度 的 二 阶 优化 ; 
。 对 自然 梯度 进行 K-FAC 近似 。 


算法 B.70 ACKTR 
HBR: 步 长 Nmax, KL- 散 度 上 限 9 
输入 : 空 回放 缓存 D, 初始 策略 函数 参数 bo, 初始 价值 函数 参数 bo 
for k = 0,1,2,--- do 
在 环境 中 执行 策略 te = n (On) 并 保存 轨迹 集 Dj = {riji = 0,1,---} 
计算 累积 奖励 Gi 
基于 当前 的 价值 函数 Vo. 计算 优势 函数 A 〈 基 于 任何 优势 函数 的 估计 方法 ) 
估计 策略 梯度 gi = PI S LED Y o Vo log T79(AilSt)|o, At 
for l = 0,1,2,--- do 
vec(A01) = vec( A7 Vo dS; 1) 这 里 A; = Elaja]], S; = E(V.,gs)(Va6.).] (Ar, Si 38 
过 计算 片段 的 滚动 平均 值 所 得 )，a 是 第 1 层 的 输入 激活 向 量 ，si = Wap vec(-) 是 把 矩 
阵 变换 成 一 维 向 量 的 向 量化 变换 




































































































































































end for 
K-FAC 近似 自然 梯度 来 更 新 策略 : ii = Ok + Nk Abk 这 里 Nk = min (ns 4/ waa | * 
k 
Hi = = A e) S| 

















采用 Gauss-Newton 二 阶梯 度 下 降 方法 〈 并 使 用 K-FAC 近似 ) 最 小 化 均 方 误差 来 学 习 价值 函 


A: Bk41 = arg ming Dr 2 ren, en (Vs (St) = Gi)” 
end for 

















B4 ”高 等 深度 强化 学 习 


B.4.1 模仿 学 习 





DAgger 


算法 B.71 DAgger 

初始 化 卫生 1 

初始 化 策略 e, 为 策略 集 II 中 任意 策略 

fori = 1,2,--- , N do 

Ti — Pin” + (1 — bi)îi 

用 mi 采样 几 个 工 步 的 轨迹 
得 到 由 zi; 访问 的 策略 和 专家 给 出 的 动作 组 成 的 数据 集 D; = {(s, 7*(s))} 
聚合 数据 集 : D- DUD; 
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附录 B 算法 速 查 表 





TED 上 训练 策略 tia 
end for 


返回 策略 ty 











B.4.2 ”基于 模型 的 强化 学 习 
Dyna-Q 


算法 B.72 Dyna-Q 




















初始 化 Q(s,a) fll Model(s,a), 其 中 seS, acA 
while(true): 
(a) s — 当前 《〈 非 终止 ) 状态 
(b) a + e-greedy(s, Q) 
(c) 执行 决策 行为 a; 观测 奖励 7, 获得 下 一 个 状态 8 
(d) Q(s.a) — Q(s,a) +a [r + maxa Q(s'; a’) - Q(s.a)] 
(e) Model(s, a) < r, s' 
(f) € E n 次: 
s 《随机 历史 观测 状态 
a 生 在 状态 s 下 历史 随机 决策 行为 
r,s’ «— Model(s, a) 


Q(s,a) — Q(s,a) +a [r 二 Ymaxa’ Q(s’, a^) 一 Q(s, a)] 





























朴素 蒙特 卡 罗 搜 索 (Simple Monte Carlo Search) 
算法 B.73 朴素 蒙特 卡 罗 搜 索 








固定 模型 M 和 模拟 策略 x 
for 每 个 动作 we Ado 
for 每 个 片段 ke {1,2,--- , K} do 

















根据 模型 M 和 模拟 策略 r, 从 当前 状态 Sy 开始 在 环境 
记录 轨迹 {S+ a, RE, Shia. Afr» Reo, Gr Sh} 
计算 从 每 个 S, 开始 的 累积 奖励 G? = TRE 

















end for " 
Q(5;, a) — x » Gt 
=]; 
end for 











返回 当前 最 大 Q 值 的 动作 A, = argmax,e 4 Q@(Si,a) 
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蒙特 卡 罗 树 搜索 (Monte Carlo Tree Search) 


算法 B.74 蒙特 卡 罗 树 搜索 

回 定 模型 人 4 

初始 化 模拟 策略 7 

for 每 个 动作 we A do 

for 每 个 片段 ke {1,2,---,K} do 

根据 模型 M 和 模拟 策略 x 从 当前 状态 S. 在 环境 中 展开 
记录 轨迹 {54,a, Revi, Sici Ati, Reo, Sr} 

IM (St, At)» Ap = a 开始 的 平均 回报 更 新 每 个 (5;, Ai) i= t, T H QE 

由 当前 的 Q 值 更 新 模拟 策略 x 


end for 



































A 




















H 























end for 


返回 当前 最 大 Q 值 的 动作 A, = arg maxaeA Q(S;, a) 








Dyna-2 


算法 B.75 Dyna-2 
function LEARNING 
PGA Fs 和 万 
0 —0 8 初始 化 长 期 存储 空间 中 网 络 参数 
loop 





s «— So 
0-0 # 初始 化 短期 存储 空间 中 网 络 参数 
z—0 8 初始 化 资格 迹 
SEARCH(s) 
a + t(s; Q) # 基 于 和 Q 相关 的 策略 选择 决策 动作 
while s 不 是 终结 状态 do 
执行 a, 观测 奖励 > 和 下 一 个 状态 s 
(Fs, Fr) € UpdateModel(s, a,r, s') 
SEARCH(s’) 
a’ — 1(s'; Q) # 选择 决策 动作 使 其 用 于 下 一 个 状态 s” 
ó € r -- Q(s', a^) — Q(s,a) # 计算 TD-error 
0 — 0+a(s,a)dz # 更 新 长 期 存储 空间 中 网 络 参数 
zedAzt+o # 更 新 资格 迹 


s+ s', a «— a 




























































































end while 
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附录 B 算法 速 查 表 





end loop 


end function 















































function SEARCH(s) 
while 时 间 周 期 内 do 
zc—0 # 清除 短期 存储 的 资格 迹 
acz(sQ)  # 基 于 和 可 相关 的 策略 决定 决策 动作 
态 do 


while s 不 是 终结 状 ; 
a) 


s' — F,(s, 
r — F,(s,a) 


a’ + x(s'; Q) 


ó — R -- Q(s',a') - 


0 —— 0 4- a(s, a)óz 


zt Az4ó 
s&s, aad 
end while 
end while 


end function 





(s,a) 


f$ BRAS 


天 得 奖励 


# 计算 TD-error 











# 更 新 短期 存储 空间 ! 

















新 短 





期 存储 的 资格 迹 








B.4.3 ”分 层 强 化 学 习 


战略 专注 作家 (STRategic Attentive Writer, STRAW) 


算法 B.76 STRAW 中 的 计划 更 新 








if ge = 1 then 


计算 动作 -计划 的 注意 力 参 数 WA = f (2i) 
应 用 专注 阅读 : Bt = read(A*!, WA) 



































计算 











[RIZR e, = h(concat(0,, z;)) 


计算 承诺 -计划 的 注意 力 参数 yf = fc(concat(yt ,ea)) 
更 新 At = o(A71) + write(f (et), yf) 
更 新 ct = Sigmoid(b + write(e, wp)) 


else 


更 新 At = p( ACC!) 





更 新 ct = p(cr—-1) 
end if 
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网 络 参 数 


w 
P 


高 等 深度 强化 学 习 





B44 多 智能 体 强化 学 习 
多 智能 体 Q-Learning (Multi-Agent Q-Learning ) 
算法 B.77 多 智能 体 一 般 性 Q-learning 
WE Q 表格 中 初始 值 Qi(s, aiai) = 1, Vie {1,2, ,m] 
for episode = 1 to M do 
设 定 初始 状态 s = So 
for step = 1 to T do 
每 个 智能 体 ; 基于 ri(s) 选择 决策 行为 a; , 其 行为 是 根据 当前 Q 中 所 有 
衡 决策 策略 
观测 经 验 (s, a; a-i ri S) 并 将 其 用 于 更 新 Qi 
更 新 状态 s = s' 


end for 









































re 
amp 
CC 


体 ; 


RU 
n> 
Nw 


内 什 均 









































end for 





多 智能 体 深度 确定 性 策略 梯度 (Multi-Agent Deep Deterministic Policy Gradient, MADDPG) 
算法 B.78 多 智能 体 深度 确定 性 策略 梯度 
for episode = 1 to M do 
设 定 初始 状态 s = So 
for step = 1 to T do 
每 个 智能 体 d 基于 当前 决策 策略 re, 选择 决策 行为 us 
同时 执行 所 有 智能 体 的 决策 行为 a = (a1,a2, ,am) 
 (s,a,7, s") 存在 回放 缓冲 区 M 
更 新 状态 = s 
for 智能 体 i= 1 to m do 
从 回访 缓冲 区 M 中 采样 批量 历史 经 验 数据 
对 于 行动 者 和 批判 者 网 络 ， 计 算 网 络 参数 梯度 并 根据 梯度 更 新 参数 


end for 














































































































end for 


end for 
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附录 B 算法 速 查 表 
B45 并行 计算 


异步 优势 Acto 


r-Critic (Asynchronous Advantage Actor-Critic, A3C) 


算法 B.79 异步 优势 Actor-Critic (Actor-Learner) 





超人 参数: 总 探索 步 数 Ts， 每 个 周期 内 最 多 探索 步 数 tax 
初始 化 步 数 上 = 1 

while T < Tnax do 

初始 化 网 络 参数 梯度 : d0 = 0 和 db, = 0 

和 参数 服务 器 保持 同步 并 获得 网 络 参数 0 = 0 Fil 07, = 0, 


tstart = t 



































设 定 每 个 探索 周期 初始 状态 Si 
while 达到 终结 状态 or t — tstart == tmax do 








基于 决策 策 











咯 7 (S;|0") 选择 决策 行为 a 














在 环境 中 采 
t=t+1,T 
end while 








=T +1. 


if 达到 终结 状态 then 





R=0 
else 
R=V(S,|6,,) 
end if 
fori =t—1,t—2,--- ,tar do 





HZ SUE 
积累 参数 梯 
end for 


基于 梯度 db f 





end while 


更 新 折扣 化 奖励 R= Ri 十 YR 


度 0',d9 = d0 + Vor log 7(S;|0’)(R — V(Si|0,)) 
BE 0,, db, = dd, + A(R — V (S:10,))?/30; 





dO, 异步 更 新 0 和 0, 








分 布 式 近 端 策略 优化 (Distributed Proximal Policy Optimization, DPPO) 


算法 B.80 DPPO (chief) 





超 参 数 : workers 数目 W, 可 获得 梯度 的 worker 数目 门限 值 D, 次 迭代 数目 
































输入 : 初始 全 局 策略 网 络 参 数 0, 初始 全 局 价值 网 络 参数 o 
for k = 0,1,2,--- do 
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for m € {1,--- 





, M) do 


SS AES 






























































B4 高 等 深度 强化 学 习 
等 待 至 少 可 获得 W 一 D 个 worker 计算 出 来 梯度 9， 去 梯度 的 均值 并 更 新 全 局 梯度 9 
end for 
for b € {1,...,B}do 
等 待 至 少 可 获得 W 一 D 个 worker 计算 出 来 梯度 p, KARRIEREN ERE ob 
end for 
end for 





算法 B.81 DPPO worker) 




















MEM: KL $55 £200 A, 自 适应 参数 
输入 : 初始 局 
for k = 0,1,2,--- do 
通过 在 环境 中 采用 策略 re WS 
计算 rewards-to-go G' 

基于 价值 函 
法 ) 
存储 部 分 轨迹 信 ， 
Told €— To 


for m € (1,- 
T At St) 
Jppo(O) = 51 1 TUS Âs — 


if KL[zaa|ro] > 4K Liarget then 






































AT 




















NERA 


于 当前 


























E 


: , M) do 


局 部 策略 网 络 参 数 0, 初始 局 部 价值 


函数 Vo, 计算 对 advantage 的 估计 ，A〔 可 选择 使 用 


AKLIrodlro] = 


a = 1.5,b = 2, VIERA M, B 
网 络 参数 o 

















探索 轨迹 Dj = {ri} 




















任何 一 种 advantage 估计 方 











€max(0, KL [Total 76] d 2K Longer)? 


break 并 继续 开始 上 十 1 WR 


end if 
计算 VoJppo 
发 送 梯度 数据 0 到 chief 




















等 待 梯度 被 接受 或 被 舍弃 ， 更 





end for 

for b € {1,...,B}do 
L(¢) = - Dyas (6: — Va (S9)? 
计算 VoL 
发 送 梯度 数据 o 到 chief 





折 网 络 参 数 











折 网 络 参 数 





等 待 梯度 被 接受 或 被 舍弃 ， 更 


end for 

计算 d= 

if d < dtarget/a then 
A<A/b 

















E [KL [moia(-|S¢), 0 (-1S¢)]] 
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附录 B 算法 速 查 表 





else if d > dtarget x a then 
À«—Axb 
end if 
end for 





算法 B.82 DPPO (PPO-Clip worker) 
MSR: clip 因子 e, 次 迭代 数 日 M, B 
输入 : 初始 局 部 策略 网 络 参数 0, 初始 局 部 价值 网 络 参数 o 
for k = 0,1,2,--- do 
通过 在 环境 中 采用 策略 re 收集 探索 轨迹 Dj = (7i) 
计算 rewards-to-go G'; 
基于 当前 价值 函数 Va, 计算 对 advantage 的 估计 ， Ay 〈 可 选择 使 用 任何 一 种 advantage 估计 方 
法 
存储 部 分 轨迹 信息 
Told To 
for m € {1,--- , M} do 
通过 最 大 化 PPO-Clip 目标 更 新 策略 : 


T 7 Te(4tSt) 4 n(A S A 
Jppo(8) = DAT 3 rep, 221-29 min | 一 一 一 AGERE ;1 一 1 十 9À) 








































































































计算 Vo Jppo 

发 送 梯度 数据 0 到 chief 

等 待 梯度 被 接受 或 被 舍弃 ， 更 新 网 络 参 数 
end for 


for b € {1,--- , B} do 

通过 回归 均 方 误差 拟 合 价值 方程 : ; 
L(6) = — php Xren, Vico (Vels) - Gr) 
计算 VoL 

发 送 梯度 数据 p 到 chief 

等 待 梯 度 被 接受 或 被 舍弃 ， 更 新 网 络 参数 


end for 

































































end for 





Ape-X 


算法 B.83 Ape-X (Actor) 
超 参 数 : 单 次 批量 发 送 到 回放 缓冲 区 的 数据 大 小 B, ERAH T 
与 学 习 者 同步 并 获得 最 新 的 网 络 参数 00 
从 环境 中 获得 初始 状态 So 
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for t= 0,1,2,---,7—1do 
基于 决策 策略 x(S4|04) 选择 决策 行为 A 
将 经 验 (Sp, Ar, Re, Seyi) 加 入 当地 缓冲 区 
if 当地 缓冲 区 存储 数据 达到 数目 门限 值 B then 
批量 获得 缓冲 数据 B 
计算 获得 缓冲 数据 的 优先 级 p 
将 批量 绥 冲 数据 和 其 更 新 的 优先 级 发 送 
end if 
周期 性 同步 并 更 新 最 新 的 网 络 参数 0 


end for 
























































H 








放 缓 冲 











区 












































算法 B.84 Ape-X (Learner) 











BER: 学 习 周 期 数目 了 

初始 化 网 络 参数 Oo 
for t = 1,2,3,--- , T do 

从 回放 缓冲 区 中 批量 采样 带 有 优先 级 的 数据 (i, d) 
通过 批 数 据 进 行 模型 训练 
新 网 络 参数 0, 
于 批 数据 计算 优先 级 p 
新 回放 缓冲 区 中 索引 i 数据 的 优先 级 p 
期 性 地 从 回放 缓冲 区 中 删除 低 优 先 级 的 数据 


end for 












































| 






























































ag dox 
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中 文 英文 缩写 
机 器 学 习 基 础 

人 工 智 能 Artificial Intelligence AI 

机 器 学 习 Machine Learning ML 

深度 学 习 Deep Learning DL 

多 层 感 知 器 Multilayer Perceptron MLP 

深度 神经 网 络 Deep Neural Networks DNN 

卷 积 神经 网 络 Convolutional Neural Network CNN 

循环 神经 网 络 Recurrent Neural Network RNN 

人 工 神 经 网 络 Artificial Neural Network ANN 

长 短期 记忆 Long Short-Term Memory LSTM 

单元 Cell 

偏差 Bias 

隐藏 状态 Hidden State 

单元 状态 Cell State 

隐藏 层 Hidden Layer 

批 大 小 Batch Size 

小 批量 Mini-Batch 

整流 线性 单元 Rectified Linear Unit ReLU 
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附录 C 中 英文 对 照 表 


























































































































































































































中 文 英文 缩写 
指数 线性 单元 Exponential Linear Unit ELU 
梯度 下 降 Gradient Descent 
随机 梯度 下 降 Stochastic Gradient Descent SGD 
输出 层 Output Layer 
权重 Weight 
引 理 Lemma 
步 长 Step Size 
步 幅 Stride 
超 参 数 Hyperparameter 
输入 Input 
输出 Output 
初始 化 Initialize/Initialization 
更 新 Update 
协 方差 Covariance 
交叉 验证 Cross-Validation 
过 度 拟 合 Overfitting 
RWE Underfitting 
权重 衰减 Weight Decay 
集成 学 习 Ensemble Learning 
动 编码 器 Autoencoder AE 
变 分 自动 编码 器 Variational Autoencoder VAE 
生成 对 抗 网 络 Generative Adversarial Networks GANS 
全 连接 Fully-Connected FC 
密集 层 ， 亦 称 全 连接 层 Dense Layer 
朴素 贝 叶 斯 Naive Bayes 
线性 回归 Linear Regression 
折 页 损失 函数 Hinge Loss 
KL 散 度 Kullback-Leibler Divergence KL Divergence 
多 类 别 Multinomial 
独 热 码 One-Hot 
学 习 率 Learning Rate 
前 向 传播 Forward Propagation 
反 癌 传播 Backward Propagation 
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附录 C 中 英文 对 照 表 























































































































































































































中 文 英文 缩写 
批 标准 化 Batch Normalization 
分 对 数 Logit 
对 数 概 率 Log Probability 
线段 树 Segment Tree 
张 量 Tensor 
早 停 法 Early Stopping 
数据 增强 Data Augmentation 
强化 学 习 基础 

KAS State 

RASS State Set 
动作 Action 
动作 集合 Action Set 
观测 Observation 
轨迹 Trajectory 
智能 体 Agent 
奖励 Reward 
环境 Environment 
回报 Return 
转移 Transition 
长 期 回报 Long-Ierm Return 
短期 回报 Short-Term Return 
探索 -利用 的 权衡 Exploration-Exploitation Trade-Off 
确定 性 转移 过 程 Deterministic Transition Process 
随机 性 转移 过 程 Stochastic Transition Process 
TAS HE AS FE BE State Transition Matrix 
基准 Baseline 
部 分 可 观测 的 Partially Observable 
完全 可 观测 的 Fully Observable 
立即 奖励 Immediate Reward 
累积 奖励 Cumulative Reward 
非 折 扣 化 的 回报 Undiscounted Return 
折扣 化 回报 Discounted Return 
期 望 回报 Expected Return 
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附录 C 中 英文 对 照 表 

























































































































































































































































































中 文 英文 缩写 
起 始 状态 分 布 Start-State Distribution 
{TF Actor 
TIE Critic 
基于 模型 的 Model-Based 
无 模型 的 Model-Free 
基于 价值 的 Value-Based 
基于 策略 的 Policy-Based 
玩 定 策略 On-Policy 
新 定 策略 Off-Policy 
在 线 策略 On-Policy 
离线 策略 Off-Policy 
规划 Planning 
试 错过 程 Trial-and-Error Process 
省 法 Introspection 

时 间 差 分 Temporal Difference TD 
正 向 运动 学 Forward Kimematics 

反 向 运动 学 Inverse Kinematics 

马尔 可 夫 Markov 

马尔 可 夫 链 Markov Chain 

马尔 可 夫 性 质 Markov Property 

时 间 同 质 性 Time-Homogeneous 

时 间 不 同 质 Time-Inhomogeneous 
折扣 因子 Discount Factor 
赌博 机 Bandit 
单 臂 赌博 机 Single-Armed Bandit 
多 臂 赌 博 机 Multi-Armed Bandit MAB 
SES GF Oblivious Adversary 
非 健 忘 对 抗 者 Non-Oblivious Adversary 
全 信息 博弈 Full-Information Game 
部 分 信息 博弈 Partial-Information Game 
概率 图 模型 Probabilistic Graphical Model 
观察 变量 Observed Variable 
蒙特 卡 罗 Monte Carlo MC 
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附录 C 中 英文 对 照 表 































































































































































































中 文 RM 缩写 
首次 蒙特 卡 First-Visit Monte Carlo 

每 次 蒙特 卡 罗 Every-Visit Monte Carlo 

动态 规划 Dynamic Programming DP 
逆 和 矩阵 方法 Inverse Matrix Method 

探索 和 利用 Exploration and Exploitation 

回放 缓存 Replay Buffer 

自 举 Bootstrap 

穷 举 法 Exhaustive Method 

非 终 结 Non-Terminal 

强化 学 习 Reinforcement Learning RL 
高 等 强化 学 习 Advanced Reinforcement Learning 

深度 强化 学 习 Deep Reinforcement Learning DRL 
回合 /片段 Episode 

回溯 Backup 

AH Wot Collapse 

截断 Clipped 

贝尔 曼 方程 Bellman Equation 

贝尔 曼 期 望 方 程 Bellman Expectation Equation 

贝尔 曼 最 优 方 程 Bellman Optimality Equation 

DUAR S i p pe i Er Bellman Optimality Backup Operator 

批量 Batch 

函数 拟 合 器 Function Approximator 

马尔 可 夫 过 程 Markov Process MP 
马尔 可 夫 奖 励 过 程 Markov Reward Process MRP 
奖励 函数 Reward Function 

奖励 折扣 因子 Reward Discount Factor 

马尔 可 夫 决 策 过 程 Markov Decision Process MDP 






























































有 限 范围 马尔 可 夫 决 策 过 程 | Finite-Horizon Markov Decision Process 
部 分 可 观测 的 马尔 可 夫 决 策 | Partially Observed Markov Decision Process | POMDP 
贪心 策略 Greedy Policy 
ec- 贪心 c-Greedy 
r THE Regret 

















附录 C 中 英文 对 照 表 










































































































































































































































































































































































中 文 英文 缩写 
置信 上 界 Upper Confidence Bound UCB 
树 置信 上 界 Upper Confidence Bound in Tree UCT 
雅 达 利 游戏 Atari Game 

价值 函数 Value Function 

Q 值 函数 Q-Value Function 

动作 价值 函数 Action-Value Function 

在 线 价 值 函数 On-Policy Value Function 

最 优 价值 函数 Optimal Value Function 

在 线 动 作价 值 函数 On-Policy Action-Value Function 

最 优 动 作价 值 函数 Optimal Action-Value Function 

查找 表 Lookup Table 

多 项 式 族 Polynomial Family 

多 项 式 基 Polynomial Basis 

傅立叶 基 Fourier Basis 

傅立叶 变换 Fourier Transformation 

粗略 编码 Coarse Coding 

瓦 式 编码 Tile Coding 

感知 域 Receptive Field 

径 向 基 函 数 Radial Basis Function RBF 
决策 树 Decision Tree 

Igi? Nearest Neighbor 

半 梯 度 Semi-Gradient 

死亡 三 件 套 the Deadly Triad 

过 估计 Over-Estimation/Over-Estimate 

欠 估 计 Under-Estimation/Under-Estimate 

均 方 误差 Mean Squared Error MSE 
平均 绝对 误差 Mean Absolute Error MAE 
策略 梯度 Policy Gradient PG 
确定 性 策略 Deterministic Policy 

随机 性 策略 分 布 Stochastic Policy Distribution 

确定 性 策略 梯度 Deterministic Policy Gradient DPG 
随机 性 策略 梯度 Stochastic Policy Gradient SPG 
条 件 概率 分 布 Conditional Probability Distribution 
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附录 C 中 英文 对 照 表 





























































































































































































































中 文 英文 缩写 
初版 策略 梯度 Vanilla Policy Gradient VPG 
参数 化 策略 Parameterized Policy 
伯 努 利 分 布 Bernoulli Distribution 
类 别 分 布 Categorical Distribution 
对 角 高 斯 分 布 Diagonal Gaussian Distribution 
二 值 化 动作 策略 Binary-Action Policy 
类 别 型 策略 Categorical Policy 
逐个 元 素 的 乘积 Element-Wise Product 
联 贝尔 分 布 Gumbel Distribution 
耿 贝 尔 -Softmax 函数 Gumbel-Softmax 
联 贝尔 -最 大 化 函数 Gumbel-Max 
不 可 微 的 Non-Differentiable 
逆 变 换 Inverse Transform 
对 角 高 斯 策略 Diagonal Gaussian Policy 
累计 折扣 奖励 Cumulative Discounted Reward 
折扣 状态 分 布 Discounted State Distribution 
转移 概率 Transition Distribution 
对 数 - 导 数 技巧 Log-Derivative Trick 
对 数 Logarithm 
将 得 到 的 奖励 Reward-to-Go 
偏 微分 Partial Derivative 
贯穿 时 间 的 反 向 传播 Backpropagation Through Time BPTT 
莱 布 尼 茨 积分 法 则 Leibniz Integral Rule 
富 比 尼 定 理 Fubini’s Theorem 
只 测度 Product Measure 
可 测 函 数 Measurable Function 
紧 致 性 Compactness 
被 积 函数 Integrand 
行为 策略 Behaviour Policy 
约 等 于 Approximately Equivalent 








Regular delta-Approximation 














AW BR 


Lipschitz 








目标 网 络 
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Target Network 
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中 文 英文 缩写 
得 分 函数 Score Function 
路 径 导 数 Pathwise Derivative 
再 参数 化 Reparametrization 
随机 价值 梯度 Stochastic Value Gradient SVG 
协 方 差 矩 阵 自 适 应 Covariance Matrix Adaptation CMA 
协 方 差 矩 阵 自 适 应 进化 策略 Covariance Matrix Adaptation Evolution CMA-ES 
Strategy 
ME Ly Hill Climbing 
选择 比率 Selection Ratio 
A PR CIT UA Compatible Function Approximation 
优势 函数 Advantage Function 
中 央 处 理 器 Central Processing Unit CPU 
KDE NT a Graphics Processing Unit GPU 
样本 效率 Sample Efficiency 
高 样本 效率 的 Sample-Efficient 
灾难 性 遗忘 Catastrophic Interference/Forgetting 
元 学 习 Meta-Learning 
表征 学 习 Representation Learning 
多 智能 体 强化 学 习 Multi-Agent Reinforcement Learning MARL 
模拟 到 现实 Simulation-to-Reality Sim2Real, 
Sim-to-Real 
言 赖 域 Trust Region 
JE BH RE Conjugate Gradient 
自然 梯度 Nature Gradient 
变 分 推断 Variational Inference VI 
专家 示范 Expert Demonstrations 
模仿 学 习 Imitation Learning IL 
AE SI Cross Entropy CE 
分 层 强化 学 习 Hierarchical Reinforcement Learning HRL 
封建 制 强化 学 习 Feudal Reinforcement Learning 
无 行动 者 Actor-Free 
逆向 强化 学 习 Inverse Reinforcement Learning IRL 
行为 克隆 Behavioral Cloning BC 
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中 文 RM 缩写 
学 徒 学 习 Apprenticeship Learning 
从 观察 量 进行 模仿 学 习 Imitation Learning from Observations IfO/ILFO 
高 斯 混合 模型 回归 Gaussian Mixture (Model) Regression GMR 
高 斯 过 程 回 归 Gaussian Process Regression 
A) RC Causal Entropy 
协 变量 漂移 Covariate Shift 
合 误差 Compounding Errors 
数据 集聚 合 Dataset Aggregation DAgger 
无 悔 的 No-Regret 
动态 运动 基 元 Dynamic Movement Primitives DMP 
单 样本 的 One-Shot 
BARDA p] SRA 2] Maximum Entropy Inverse Reinforcement MaxEnt IRL 
Learning 
奖励 塑 形 Reward Shaping 
生成 对 抗 模 仿 学 习 Generative Adversarial Imitation Learning GAIL 
辨别 器 Discriminator 
多 模 态 的 Multi-Modal 
引导 性 代价 学 习 Guided Cost Learning GCL 
生成 对 抗 网 络 指导 性 代价 学 ”| Generative Adversarial Network Guided GAN-GCL 
习 Cost Learning 
极 大 似 然 估 计 Maximum Likelihood Estimation MLE 
以 轨迹 为 中 心 的 Trajectory-Centric 
以 状态 为 中 心 的 State-Centric 
玻 尔 效 曼 分 布 Boltzmann Distribution 
配 分 函数 Partition Function 
重要 性 采样 Importance Sampling 
对 抗 性 逆向 强化 学 习 Adversarial Inverse Reinforcement Learning | AIRL 
互信 息 Mutual Information 
时 间 步 Time Step 
逆向 动态 模型 Inverse Dynamics Models 
正 向 动态 模型 Forward Dynamics Models 
贝 叶 斯 优化 Bayesian Optimization BO 
从 观察 量 模仿 潜在 策略 Imitating Latent Policies from Observation ILPO 
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中 文 英文 缩写 
选项 框架 Options Framework 
本 体感 觉 Proprioceptive 
线性 二 次 型 调节 器 Linear Quadratic Regulator LQR 
极 小 化 极 大 Minimax 
从 观察 量 进 行 行为 克隆 Behavioral Cloning from Observation BCO 
正 向 对 抗 式 模仿 学 习 Forward Adversarial Imitation Learning FAIL 
动作 指导 性 对 抗 式 模仿 学 习 ”| Action-Guided Adversarial Imitation AGAIL 
Learning 

增强 逆向 动态 建 模 Reinforced Inverse Dynamics Modeling RIDM 
奖励 函数 工程 Reward Engineering 
欧 氏 距离 Euclidean Distance 
时 间 对 比 网 络 Time-Contrastive Networks TCN 

Le AN VE AC Embodiment Mismatch 
概率 性 运动 基 元 Probabilistic Movement Primitives ProMP 
核 运动 基 元 Kernelized Movement Primitives KMP 
高 斯 过 程 回归 Gaussian Process Regression GPR 
高 斯 混合 模型 Gaussian Mixture Model GMM 
策略 替换 Policy Replacement 
残 差 策略 学 习 Residual Policy Learning 
基于 示范 的 深度 Q-learning Deep Q-learning from Demonstrations DQfD 
基于 示范 的 深度 确定 性 策略 | Deep Deterministic Policy Gradient from DDPGfD 
梯度 Demonstrations 
标准 化 Actor-Critic Normalized Actor-Critic NAC 
最 先进 的 State-of-the-Art SOTA 
用 示范 数据 进行 奖励 塑 形 Reward Shaping with Demonstrations 
对 比 正 向 动态 Contrastive Forward Dynamics CFD 
内 在 奖励 JIntrinsic Reward 
封建 制 网 络 Feudal Network FuN 
基于 族群 的 训练 Population-Based Training PBT 
通用 性 Generality 
多 面 性 Versatility 
与 模型 无 关 的 元 学 习 Model-Agnostic Meta-Learning 
学 会 学 习 Learning to Learn 








485 


附录 C 中 英文 对 照 表 















































































































































































































































中 文 RM 缩写 
内 循环 Inner-Loop 

外 循环 Outer-Loop 

元 学 习 者 Meta-Learner 

度量 学 习 Metric Learning 

元 强化 学 习 Meta-Reinforcement Learning 

小 样本 学 习 Few-Shot Learning 

状态 表征 学 习 State Representation Learning SRL 
HID at Descriptor 

博弈 论 Game Theory 

AREA Self-Play SP 

优先 虚拟 自我 博弈 Prioritized Fictitious Self-Play PFSP 

指导 性 策略 搜 搜 Guided Policy Search GPS 
比例 -积分 -微分 Proportional-Integral-Derivative PID 

现实 鸿沟 Reality Gap 

系统 识别 System Identification SI 

泛 化 力 模型 Generalized Force Model GFM 

零 样本 Zero-Shot 

域 自 适应 Domain Adaption DA 

渐进 网 络 Progressive Networks 

动力 学 随机 化 Dynamics Randomization DR 
随机 到 标准 自 适应 网 络 Randomized-to-Canonical Adaptation RCANs 

Networks 

可 扩展 性 Scalability 

重要 性 加 权 的 行动 者 -学 习 者 | Importance Weighted Actor-Learner IMPALA 
结构 Architecture 

可 扩展 高 效 深度 强化 学 习 Scalable, Efficient Deep-RL SEED 
社交 树 Social Tree 

多 步 学 习 Multi-Step Learning 

噪声 网 络 Noisy Nets 

值 分 布 强化 学 习 Distributional Reinforcement Learning 

分 布 式 贝尔 曼 算 子 Distributional Bellman Operator 

自 适应 的 Adaptive 

层 标准 化 Layer Normalization 
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中 文 英文 缩写 
FIER Sub-Iteration 
Ay ERT FA FE RE Block Diagonal Matrix 
无 穷 范式 co-Norm 
L2 范式 L2-Norm 
模拟 Simulation 
评估 /估计 Evaluate 
策略 迭代 Policy Iteration 
策略 评估 Policy Evaluation 
策略 提升 Policy Improvement 
泛 化 策略 迭代 Generalized Policy Iteration GPI 
柔性 策略 迭代 Soft Policy Iteration 
价值 迭代 Value Iteration 
最 优 性 原则 Principle of Optimality 
优先 扫描 Prioritized Sweeping 
梯度 赌博 机 Gradient Bandit 
直接 策略 搜索 Direct Policy Search 
资格 迹 Eligibility Trace 
HEI ji Lazy-Frame 
选项 策略 Policy-over-Action 
选项 内 置 策略 Intra-Option Policy 
时 域 抽象 Temporal Abstraction 
专注 写作 Attentive Writing 
选项 内 置 策略 梯度 理论 Intra-Option Policy Gradient Theorem 
奖励 隐藏 Reward Hiding 
E A Sei Information Hiding 
半 马 尔 可 夫 决 策 过 程 Semi-Markov Decision Process SMDP 
转移 策略 梯度 Transition Policy Gradients 
重 标记 Re-Label 
原始 值 函 数 Proto-Value Functions PVFs 
后 见 之 明 目 标 转移 Hindsight Goal Transitions 
终生 学 习 Lifelong Learning 
一 Ornstein-Uhlenbeck OU 
斯 塔 充 尔 伯 格 博弈 Stackelberg Game 
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中 文 RM 缩写 
先 发 优 势 First-Mover Advantage 
演算 Roll-Out 
消息 传递 接口 Message Passing Interfaces MPI 
进程 间 通 信 Inter-Process Communication IPC 
预测 者 Predictor 
训练 者 Trainer 
强化 学 习 算 法 
探索 和 利用 的 指数 加 权 算 法 | Exponential-Weight Algorithm for Exp3 
Exploration and Exploitation 

单 步 Q-learning One-Step Q-learning 
多 步 Q-learning Multi-Steps Q-learning 
深度 Q 网 络 Deep Q-Networks DQN 
一 Categorical 51 C51 
深度 确定 性 策略 梯度 Deep Deterministic Policy Gradient DDPG 
优先 经 验 回放 Prioritized Experience Replay PER 
后 见 之 明 经 验 回放 Hindsight Experience Replay HER 
信赖 域 策略 优化 Trust Region Policy Optimization TRPO 
近 端 策略 优化 Proximal Policy Optimization PPO 
分 布 式 近 端 策略 优化 Distributed Proximal Policy Optimizaion DPPO 
一 Actor-Critic AC 
归 一 化 Actor-Critic Normalized Actor-Critic NAC 
使 用 Kronecker 因子 化 信赖 Actor Critic Using Kronecker-Factored Trust | ACKTR 
域 的 Actor Critic Region 

(同步 ) 优势 Actor-Critic Synchronous Advantage Actor-Critic A2C 
异步 优势 Actor-Critic Asynchronous Advantage Actor-Critic A3C 
最 大 化 后 验 策略 梯度 Maximum a Posteriori Policy Optimization MPO 
期 望 最 大 化 算法 Expectation Maximization EM 
ME QUIEN Fitted Q Iteration 
TERR QZR Online Q Iteration 
分 位 数 QT-Opt Quantile QT-Opt Q2-Opt 
有 基准 的 REINFORCE REINFORCE with Baseline 
挛 生 延迟 DDPG Twin Delayed DDPG TD3 
柔性 Actor-Critic Soft Actor-Critic SAC 
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中 文 英文 缩写 

变 分 信息 量 最 大 化 探索 Variational Information Maximizing VIME 
Exploration 

朴素 蒙特 卡 罗 搜 索 Simple Monte Carlo Search 

蒙特 卡 罗 树 搜索 Monte Carlo Tree Search MCTS 

多 智能 体 Q-learning Multi-Agent Q-learning 

多 智能 体 深度 确定 性 策略 梯 | Multi-Agent Deep Deterministic Policy MADDPG 

度 Gradient 

截断 Double-Q Learning Clipped Double-Q learning 

分 布 式 深度 循环 回放 DQN Recurrent Replay Distributed DQN R2D2 

可 调 - 行 动 者 Retrace-Actor 

分 位 数 回归 DQN Quantile Regression DQN QR-DQN 

战略 专注 作家 Strategic Attentive Writer STRAW 

选项 批判 Option-Critic 

MAXQ 分 解 MAXQ Decomposition 

层次 抽象 机 Hierarchical Abstract Machines HAMs 

使 用 离线 策略 修正 的 分 层 强 Hierarchical Reinforcement Learning with HIRO 

化 学 习 Off-Policy Correction 

细 粒 度 动作 重复 Fine Grained Action Repetition FiGAR 

通用 价值 函数 逼近 器 Universal Value Function Approximators UVFAs 

GPU/CPU 混合 式 异 步 优 势 Hybrid GPU/CPU Asynchronous Advantage | GA3C 


Actor-Critic 


Actor-Critic 
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